tỰ ĐỘng phÂn tÍch cÁc nỘi dung giỐng nhau trong hỆ …

62
ĐẠI HC QUC GIA HÀ NI TRƢỜNG ĐẠI HC CÔNG NGH*** TRN THANH TÙNG TĐỘNG PHÂN TÍCH CÁC NI DUNG GING NHAU TRONG HTHNG TNG HP Ý KIN GÓP Ý TRONG HI NGHLUẬN VĂN THẠC SĨ CÔNG NGHTHÔNG TIN HÀ NI - 2016

Upload: others

Post on 29-Oct-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

***

TRẦN THANH TÙNG

TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG

GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP

Ý KIẾN GÓP Ý TRONG HỘI NGHỊ

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2016

Page 2: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN THANH TÙNG

TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG

GIỐNG NHAU TRONG HỆ THỐNG TỔNG HỢP

Ý KIẾN GÓP Ý TRONG HỘI NGHỊ

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học

Cán bộ hướng dẫn chính: TS. Bùi Quang Hưng

Cán bộ hướng dẫn phụ: PGS.TS. Vũ Duy Lợi

HÀ NỘI - 2016

Page 3: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

LỜI CAM ĐOAN

Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên

cứu, tìm hiểu của riêng cá nhân tôi. Trong toàn bộ nội dung của luận văn,

những điều được trình bày hoặc là của cá nhân tôi hoặc là được tổng hợp

từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ

ràng và được trích dẫn hợp pháp.

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo

quy định cho lời cam đoan của mình.

Hà Nội, ngày 26 tháng 10 năm 2016

Ngƣời cam đoan

Trần Thanh Tùng

Page 4: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

4

LỜI CẢM ƠN

Tôi xin chân thành cảm ơn PGS.TS. Vũ Duy Lợi, chuyên viên cao cấp Văn

phòng Trung ương Đảng và TS. Bùi Quang Hưng, giảng viên trường Đại học

Công nghệ, Đại học Quốc gia Hà Nội đã tận tình giúp đỡ tôi về chuyên môn,

định hướng phát triển trong suốt quá trình làm luận văn.

Tôi xin gửi lời cám ơn tới các Thầy, Cô giáo của Khoa Công nghệ thông

tin, vì đã truyền dạy những kiến thức bổ ích, hiện đại về lĩnh vực Hệ thống

thông tin. Tôi đã được tiếp cận một môi trường học thuật cao, hiểu được sự vất

vả cũng như thành quả đạt được khi tham gia nghiên cứu khoa học.

Tôi xin cảm ơn các bạn trong nhóm Data Mining thuộc Trung tâm Công

nghệ tích hợp liên ngành giám sát hiện trường (FIMO center), Đại học Công

nghệ Hà Nội, TS. Nguyễn Việt Anh và Nhóm Giải pháp dữ liệu, Viện Công

nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.

Cuối cùng, với gia đình, tôi xin gửi lời biết ơn sâu sắc vì gia đình đã luôn ở

bên cạnh tôi, mang lại cho tôi nguồn động viên tinh thần to lớn và tạo mọi điều

kiện thuận lợi cho tôi trong quá trình học tập và hoàn thành luận văn này.

Mặc dù đã rất cố gắng nhưng luận văn sẽ không tránh khỏi những thiếu sót.

Rất mong nhận được ý kiến đóng góp quý báu của Thầy, Cô giáo và các bạn để

luận văn được hoàn thiện hơn.

Xin trân trọng cảm ơn!

Page 5: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

5

MỤC LỤC

LỜI CAM ĐOAN ............................................................................................................ 3

LỜI CẢM ƠN .................................................................................................................. 4

MỤC LỤC ....................................................................................................................... 5

BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................................ 7

DANH MỤC CÁC HÌNH VẼ ......................................................................................... 8

MỞ ĐẦU ....................................................................................................................... 10

CHƢƠNG 1: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ .......... 14

1. Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị .............................. 14

2. Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội nghị Trung

ƣơng ........................................................................................................................... 15

2.1. Quy trình tổng hợp ý kiến thảo luận .............................................................. 16

2.2. Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ ........................................... 19

3. Xác định bài toán cần giải quyết ..................................................................... 23

CHƢƠNG 2: CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU ............... 25

1. Khái niệm độ tƣơng đồng câu .......................................................................... 25

2. Các phƣơng pháp tính độ tƣơng đồng câu ..................................................... 25

2.1. Phương pháp tính độ tương đồng câu dựa vào WordNet .............................. 25

2.2. Phương pháp tính độ tương đồng câu dựa vào Wikipedia ............................ 30

2.3. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn (Latent Dirichlet

Allocation) ..................................................................................................................... 34

2.4. Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn

(Latent Semantic Analysis) ............................................................................................ 37

3. Đánh giá và lựa chọn phƣơng pháp ................................................................ 45

Page 6: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

6

CHƢƠNG 3: ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU

TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ .......... 47

1. Đề xuất giải pháp phát hiện nội dung giống nhau trong phần mềm Hỗ trợ

tổng hợp ý kiến thảo luận tổ ................................................................................... 47

2. Xử lý dữ liệu ...................................................................................................... 48

3. Thực nghiệm ...................................................................................................... 48

3.1. Môi trường thực nghiệm ................................................................................ 48

3.2. Chương trình phần mềm ................................................................................ 49

3.3. Dữ liệu thực nghiệm ...................................................................................... 50

3.4. Giao diện chương trình thực nghiệm ............................................................. 50

4. Đánh giá kết quả thực nghiệm ......................................................................... 52

KẾT LUẬN .................................................................................................................. 53

Tài liệu tham khảo ....................................................................................................... 55

Page 7: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

7

BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Ký hiệu Diễn giải Tiếng Việt

WCG Wikipedia Category Graph Đồ thị chủ đề Wikipedia

SS Semantic similarity Tương đồng ngữ nghĩa

SR Semantic relatedness Quan hệ ngữ nghĩa

LDA Latent Dirichlet Allocation Phân bổ Dirichlet tiềm ẩn

LSA Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn

SVD

Singular Value Decomposition Phân tích giá trị đơn

IDF Inverse Document Frequency Tần số nghịch của một từ

trong văn bản TF Term Frequency Tần số từ

Page 8: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

8

DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Mô tả nghiệp vụ tổng hợp trên giấy ................................................... 18

Hình 1.2. Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến ...................... 21

Hình 1.3. Kết quả bản tổng hợp các ý kiến góp ý của các Tổ ............................ 22

Hình 2.1. Sơ đồ phân cấp các từ trong WordNet ............................................... 26

Hình 2.2. Sơ đồ tính độ tương đồng của câu ...................................................... 27

Hình 2.3. Đồ thị chủ đề Wikipedia ..................................................................... 31

Hình 2.4. Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia ............ 32

Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia ........................................... 33

Hình 2.6. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn .......................... 35

Hình 2.7. Mô hình LDA ..................................................................................... 36

Hình 2.8. SVD trong LSA .................................................................................. 40

Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu văn, mỗi

một từ xuất hiện ít nhất trong 2 câu ............................................................................... 41

Hình 2.10. Ma trận U .......................................................................................... 42

Hình 2.11. Ma trận giá trị đơn với k=2 .............................................................. 42

Hình 2.12. Ma trận V .......................................................................................... 42

Hình 2.13. Ma trận được xây dựng lại với k=2 .................................................. 43

Hình 3.1. Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến .................. 47

Hình 3.2. Giao diện khởi tạo LSA ...................................................................... 50

Hình 3.3. Giao diện nhập đoạn văn để so sánh .................................................. 51

Hình 3.4. Kết quả so sánh ................................................................................... 51

Page 9: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

9

DANH MỤC CÁC BẢNG BIỂU

Bảng 3.1. Cấu hình thiết bị môi trường thực nghiệm ......................................... 48

Bảng 3.2. Các thư viện sử dụng ......................................................................... 49

Page 10: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

10

MỞ ĐẦU

1. Đặt vấn đề

Những năm qua, việc ứng dụng công nghệ thông tin trong hoạt động của

các cơ quan, tổ chức Đảng, Nhà nước đã giúp cho công tác lãnh đạo, chỉ đạo,

điều hành và giải quyết công việc hàng ngày được nhanh chóng, chất lượng hơn,

đồng thời đã giúp cho công tác cải cách hành chính ngày càng có hiệu quả. Việc

ứng dụng công nghệ thông tin giúp các cơ quan nâng cao năng lực quản lý, điều

hành, giảm thời gian giải quyết, xử lý công việc, góp phần không nhỏ trong việc

tinh giảm tổ chức bộ máy, tiết kiệm chi phí về tài chính.

Văn phòng Trung ương Đảng là một cơ quan tham mưu của Đảng, có chức

năng tham mưu, giúp việc Ban Chấp hành Trung ương Đảng mà trực tiếp là Bộ

Chính trị, Ban Bí thư trong việc tổ chức, điều hành công việc lãnh đạo của

Đảng. Trong mỗi một nhiệm kỳ hoạt động, Ban Chấp hành Trung ương Đảng tổ

chức các Hội nghị Trung ương (thông thường 2 Hội nghị/năm). Tại mỗi Hội

nghị, có rất nhiều các chủ trương quan trọng, có tầm ảnh hưởng lớn để lãnh đạo,

chỉ đạo đất nước; các nội dung, chuyên đề ấy đều được đưa ra bàn thảo, xin ý

kiến các Ủy viên Trung ương trước khi thông qua chính thức. Một trong những

nhiệm vụ quan trọng của Văn phòng Trung ương Đảng là chuẩn bị, tổ chức,

phục vụ về cơ sở vật chất và nội dung của các Hội nghị Trung ương Đảng. Đội

ngũ chuyên viên của Văn phòng Trung ương Đảng được giao nhiệm vụ ghi biên

bản chi tiết và tổng hợp tất cả các ý kiến góp ý, thảo luận của Ủy viên Trung

ương. Công việc này đòi hỏi tính chính xác, nhanh chóng, đầy đủ và kịp thời,

theo đó các cán bộ của Văn phòng phải có khả năng tổng hợp, biên tập văn bản;

đồng thời rất cần sự hỗ trợ của công nghệ thông tin để thực hiện tốt công việc.

Thông thường, một nội dung có rất nhiều ý kiến góp ý giống nhau (trong luận

văn còn được sử dụng bằng các từ: tương đồng, trùng thừa) gây trùng lặp nội

dung thông tin. Điều này đã gây ra những khó khăn cho chuyên viên tổng hợp ý

kiến, như mất nhiều thời gian, công sức để đọc, lọc loại bỏ những ý trùng thừa,

Page 11: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

11

hoặc là việc rà soát, đánh dấu để loại bỏ các ý kiến đó không triệt để nên sẽ dễ

dẫn đến tình trạng chất lượng, hiệu quả công việc chưa cao.

Hiện nay, ở Văn phòng Trung ương Đảng đã sử dụng phần mềm hỗ trợ tổng

hợp ý kiến thảo luận tổ tại các Hội nghị Trung ương. Tuy nhiên, phần mềm này

chưa có chức năng phát hiện, đánh dấu các ý kiến trùng lặp. Với mong muốn áp

dụng những kiến thức đã được học tập ở trong trường vào cải tiến, nâng cao chất

lượng, rút ngắn thời gian tổng hợp các ý kiến tại Hội nghị Ban Chấp hành Trung

ương Đảng, tôi đã lựa chọn và nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên,

data mining để đưa ra giải pháp nhằm giải quyết vấn đề trên. Qua đó, đề xuất

xây dựng chức năng tự động phân tích, phát hiện, đánh dấu các nội dung góp ý

giống nhau trong phần mềm hỗ trợ tổng hợp ý kiến tại các Hội nghị Trung ương

đang được sử dụng tại cơ quan.

2. Mục tiêu và nhiệm vụ nghiên cứu của luận văn

* Mục tiêu:

Với mục đích góp phần giúp các chuyên viên nhanh chóng phát hiện ra

những ý kiến thảo luận đã được đề cập đến và bỏ qua chúng trong quá trình tổng

hợp ý kiến góp ý, mục tiêu của luận văn là:

Nghiên cứu các phương pháp tính toán độ tương đồng câu dựa trên các

thuật toán về xử lý ngôn ngữ tự nhiên. Trên cơ sở đó, đề xuất giải pháp xây

dựng chức năng phát hiện, đánh dấu những câu, đoạn văn giống nhau về ngữ

nghĩa trong các ý kiến góp ý vào cùng một nội dung của chủ đề được đưa ra bàn

thảo tại Hội nghị Trung ương Đảng.

* Nhiệm vụ:

Đây là vấn đề có tính thực tiễn cao và thật sự cần thiết trong hoạt động tổng

hợp ý kiến góp ý tại các Hội nghị của Trung ương. Tuy nhiên, đây cũng là vấn

đề khó, cần có nhiều thời gian để nghiên cứu, thử nghiệm, đánh giá, tăng độ

Page 12: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

12

chính xác để có thể đưa vào sử dụng trong thực tế. Do đó, nhiệm vụ đặt ra trong

luận văn là

- Giới thiệu bài toán tổng hợp ý kiến trong hội nghị.

- Tìm hiểu các phương pháp tính độ tương đồng câu.

- Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ thống tổng hợp

ý kiến góp ý trong Hội nghị

3. Tổng quan nghiên cứu vấn đề

Trên thế giới, các công trình nghiên cứu về tính toán độ tương đồng giữa

các từ, các câu hoặc đoạn văn ngắn đã được nghiên cứu rộng rãi. Nhiều thuật

toán về tính toán độ tương đồng đã được đưa ra và ngày càng có sự cải thiện về

độ chính xác.

Tại Việt Nam, các thuật toán tính toán độ tương đồng giữa các câu để áp

dụng vào bài toán tóm tắt văn bản cũng đã được nhiều tác giả tìm hiểu, nghiên

cứu. Tuy nhiên, việc áp dụng các kết quả nghiên cứu khoa học đó vào thực tiễn

chưa thực được nhiều và có hiệu quả tốt, nguyên nhân có thể là do chưa phát

hiện chính xác được các nhu cầu sử dụng cũng như yêu cầu của thực tiễn đặt ra.

Tổng hợp ý kiến góp ý tại các Hội nghị là công việc có tính chất đặc biệt

thường chỉ diễn ra tại các công ty, tổ chức lớn như các cơ quan nhà nước. Công

việc cụ thể đó là việc tổ chức Hội nghị với đông đảo người tham gia bàn thảo về

một hoặc một số chủ đề cụ thể, sau đó tổng hợp các ý kiến góp ý về chủ đề đó

để đưa ra những kết luận, phương án giải quyết. Do đây là một công việc cụ thể

lại không mang tính chất đại trà nên các nghiên cứu áp dụng các bài toán tin học

vào vấn đề này không có nhiều. Đã có tác giả nghiên cứu về bài toán phân lớp ý

kiến góp ý trong tổng hợp ý kiến trong Hội nghị [3]. Tuy nhiên việc phát hiện

nội dung góp ý giống nhau trong một nội dung thảo luận để cảnh báo, lược bỏ

thì chưa được nghiên cứu áp dụng.

Page 13: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

13

4. Phạm vi nghiên cứu của luận văn

Với tính chất là một luận văn thạc sỹ, phạm vi nghiên cứu của luận văn là:

Nghiên cứu các phương pháp và thực nghiệm một phương pháp tính toán độ

tương đồng câu để phát hiện nội dung tương đồng nhau trong tổng hợp ý kiến

góp ý tại các kỳ Hội nghị Trung ương Đảng.

5. Phƣơng pháp nghiên cứu

Để thực hiện được mục tiêu, nhiệm vụ của luận văn, các phương pháp

nghiên cứu được sử dụng như sau:

- Phương pháp khảo sát;

- Phương pháp tổng hợp;

- Phương pháp phân tích, đánh giá;

- Phương pháp thực nghiệm.

6. Nội dung của luận văn

Ngoài phần mở đầu và kết luận, luận văn được bố cục thành 3 chương:

- Chương 1. Bài toán tổng hợp ý kiến góp ý trong hội nghị.

- Chương 2. Các phương pháp tính độ tương đồng câu.

- Chương 3. Đề xuất giải pháp phát hiện nội dung giống nhau trong hệ

thống tổng hợp ý kiến góp ý trong Hội nghị

Page 14: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

14

CHƢƠNG 1

BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ

1. Tổng quan về bài toán tổng hợp ý kiến góp ý trong Hội nghị

Theo từ điển Lạc Việt, từ “tổng hợp” được định nghĩa là tập hợp các yếu tố

riêng lẻ làm thành một chỉnh thể. Trong luận văn, cụm từ “tổng hợp ý kiến”

được hiểu theo khía cạnh là tập hợp các ý kiến góp ý riêng lẻ để thể hiện xu

hướng của đại biểu góp ý vào một nội dung của vấn đề. Ví dụ như: Đa số ý kiến

cho rằng…, Một số ý kiến cho rằng…, Có ý kiến cho rằng…. Qua việc tổng hợp

ý kiến, các cơ quan chủ trì đưa vấn đề ra thảo luận biết được xu hướng của đại

biểu, qua đó tiếp thu các ý kiến góp ý phù hợp, giải trình những ý kiến băn

khoăn, tranh cãi.

Tổng hợp ý kiến góp ý trong Hội nghị là công việc đặc thù thường diễn ra

tại các cơ quan nhà nước khi cần tổ chức cuộc họp nhằm bàn bạc, quyết định

một vấn đề cụ thể. Vì vậy, các nghiên cứu riêng biệt về bài toán tổng hợp ý kiến

chưa nhiều. Tuy nhiên, cũng có những bài toán được hiểu tương tự bài toán tổng

hợp ý kiến theo một khía cạnh nào đó:

Bài toán về “khai phá quan điểm” tập trung vào việc phát hiện xu hướng

tình cảm, đánh giá của người sử dụng đối với các sự kiện, sản phẩm. Một trong

các bài toán áp dụng điển hình là phân lớp quan điểm của người sử dụng về sản

phẩm nào đó. Điểm giống nhau của bài toán tổng hợp ý kiến và khai phá quan

điểm về phương diện nào đó đều đưa ra xu hướng của người sử dụng. Điểm

khác biệt là tổng hợp ý kiến có tính cụ thể rất cao, ví dụ có ý kiến đề nghị chỉnh

sửa một vài nội dung cụ thể trong chủ đề đưa ra.

Bài toán Tóm tắt văn bản [4] là tự động trích xuất nội dung từ một nguồn

thông tin và trình bày nội dung quan trọng nhất cho người sử dụng theo một

khuôn dạng súc tích đối người sử dụng. Bài toán Tóm tắt văn bản trong trường

Page 15: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

15

hợp này có thể được hiểu là bài toán tự động tổng hợp ý kiến góp ý. Tuy nhiên

việc tự động tổng hợp ý kiến có thể gây thiếu ý do các thuật toán không đảm bảo

độ chính xác tuyệt đối. Trong thời điểm hiện nay, các phần mềm ứng dụng chưa

thể thay thế hoàn toàn con người trong việc tổng hợp ý kiến góp ý mà chỉ có thể

hỗ trợ, gợi ý còn việc quyết định vẫn do con người trực tiếp thực hiện.

Trong luận văn về “Hệ thống tự động tổng hợp ý kiến góp ý trong Hội

nghị” [3], tác giả có đưa ra mô hình hệ thống tự động tổng hợp ý kiến. Tuy

nhiên, mô hình này thực tế là giải quyết bài toán phân lớp ý kiến tổng hợp.

Qua các nghiên cứu trên, có thể thấy rằng bài toán tổng hợp ý kiến xuất

phát từ nhu cầu thực tế của một số cơ quan. Tuy nhiên trong thời điểm hiện nay

việc xây dựng một hệ thống tự động tổng hợp ý kiến là không khả thi. Việc cần

làm là xây dựng một hệ thống hỗ trợ tổng hợp ý kiến có chức năng tập hợp các ý

kiến góp ý, có các tính năng giúp cho người sử dụng tổng hợp nhanh hơn như

việc phát hiện, đánh dấu các nội dung giống nhau để qua đó người sử dụng

quyết định việc tổng hợp ý kiến.

2. Giới thiệu phần mềm Hỗ trợ tổng hợp ý kiến thảo luận tổ tại Hội nghị

Trung ƣơng

Ban Chấp hành Trung ương Đảng là cơ quan lãnh đạo cao nhất của Đảng

giữa 2 kỳ Đại hội. Ban Chấp hành Trung ương Đảng (Trung ương Đảng) có

nhiệm vụ tổ chức chỉ đạo thực hiện Cương lĩnh chính trị, Điều lệ Đảng, các

Nghị quyết của Đại hội; quyết định những chủ trương, chính sách về đối nội, đối

ngoại, công tác quần chúng và công tác xây dựng Đảng. Trung ương Đảng làm

việc theo chế độ tập thể, định kỳ (hoặc đột xuất) tổ chức họp hội nghị Trung

ương để bàn bạc, thông qua các vấn đề lớn liên quan đến lãnh đạo, chỉ đạo đất

nước.

Để giúp Trung ương Đảng đưa ra được những quyết sách đúng đắn, kịp

thời trên cơ sở các ý kiến đóng góp của các đồng chí lãnh đạo Đảng, của các

ngành, các cấp, Văn phòng Trung ương Đảng, với chức năng là cơ quan tham

Page 16: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

16

mưu, là trung tâm thông tin tổng hợp, có nhiệm vụ tổng hợp ý kiến góp ý đó một

cách chính xác, đầy đủ và nhanh chóng tại mỗi Hội nghị của Trung ương. Các

đồng chí lãnh đạo Văn phòng, chuyên viên của Văn phòng Trung ương Đảng

trực tiếp được giao nhiệm vụ ghi chép biên bản chi tiết tại các tổ thảo luận, tại

hội trường, tổng hợp các ý kiến góp ý đó và xây dựng báo cáo tổng hợp, giải

trình để trình Trung ương Đảng.

Trong những năm trở lại đây, việc ứng dụng công nghệ thông tin vào công

tác văn phòng nói chung và công tác thông tin tổng hợp nói riêng tại Văn phòng

Trung ương Đảng ngày càng được đẩy mạnh và đã hỗ trợ đắc lực cho lãnh đạo

và chuyên viên trong xử lý, giải quyết công việc. Đối với hoạt động tổng hợp ý

kiến tại các hội nghị của Trung ương, bên cạnh việc tổng hợp, ghi chép thủ công

truyền thống (ghi biên bản và tổng hợp trên giấy), Văn phòng Trung ương Đảng

đang sử dụng đồng thời phần mềm Hỗ trợ tổng hợp ý kiến thảo luận ở Tổ tại các

Hội nghị Trung ương. Phầm mềm đang được sử dụng này có chức năng cơ bản

là từ các bản tổng hợp ý kiến thảo luận của Trung ương tại mỗi tổ, phần mềm đã

gộp các ý kiến này theo từng nội dung. Kết quả là phần mềm đã giúp cho các

chuyên viên tránh được tổng hợp thiếu, sót các ý kiến trong quá trình tổng hợp.

2.1. Quy trình tổng hợp ý kiến thảo luận

Tại mỗi kỳ họp Hội nghị Trung ương, các Ủy viên Trung ương sẽ tham dự

các buổi thảo luận ở tổ bàn về những vấn đề mà Hội nghị đặt ra. Các Ủy viên

Trung ương của Hội nghị sẽ được chia thành các tổ để thảo luận (thông thường

là 14 tổ). Để ghi chép biên bản và tổng hợp ý kiến góp ý ở mỗi tổ, Văn phòng

Trung ương Đảng bố trí :

+ Một nhóm tổng hợp chung cho tất cả các tổ;

+ Các tổ thư ký tương ứng với các tổ thảo luận của Trung ương Đảng (mỗi

tổ thư ký phụ trách ghi biên bản và tổng hợp ý kiến của một tổ thảo luận của

Trung ương Đảng).

Page 17: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

17

* Tổ thư ký bao gồm các chuyên viên của Văn phòng Trung ương, mỗi tổ

gồm có 01 tổ trưởng và một số thành viên. Cụ thể hoạt động của tổ thư ký như

sau:

- Các thành viên trong tổ thư ký sẽ ghi chép chi tiết các ý kiến góp ý vào

biên bản tại tổ mình được phân công. Các biên bản này được gọi là biên bản chi

tiết. Các biên bản chi tiết được các thành viên trong tổ thư ký viết bằng tay. Biên

bản ghi diễn biến cuộc họp từ khi bắt đầu đến giờ nghỉ giải lao, sau đó thư ký tổ

sẽ nộp lại biên bản này (biên bản này gọi là quyển 1); sau giờ giải lao, thư ký tổ

sẽ ghi biên bản vào một quyển mới (quyển 2) cho đến khi kết thúc họp.

- Đồng chí tổ trưởng của mỗi tổ thư ký có trách nhiệm tổng hợp các ý kiến

góp ý được ghi ở biên bản chi tiết (2 quyển) của tổ mình ngay sau khi Hội nghị

kết thúc. Các ý kiến ở mỗi tổ được tổng hợp lại vào một bản gọi là bản tổng hợp

tổ. Theo quy định, sau 2 tiếng kể từ khi Hội nghị họp xong thì tổ trưởng ở mỗi tổ

phải nộp lại bản tổng hợp tổ cho nhóm tổng hợp chung của Văn phòng.

* Để tổng hợp các ý kiến tại mỗi tổ thành bản tổng hợp chung của Hội nghị

về riêng một vấn đề (hoặc có thể là một số vấn đề) mà các đồng chí lãnh đạo

Đảng đã thảo luận tại các tổ, Văn phòng Trung ương sẽ lập một nhóm tổng hợp

chung bao gồm: lãnh đạo Văn phòng, trưởng nhóm tổng hợp chung và các thành

viên.

- Vai trò của nhóm tổng hợp chung là:

+ Thành viên nhóm tổng hợp chung: có nhiệm vụ tổng hợp các vấn đề tại

mỗi tổ (trên cơ sở biên bản tổng hợp tổ) theo khung, mục được giao nhiệm vụ

(các khung, mục được bố trí là tùy thuộc vào nội dung, vấn đề được thảo luận).

+ Trưởng nhóm tổng hợp là người chịu trách nhiệm chính trong việc tổng

hợp, phân công cho từng thành viên tổng hợp các ý kiến trong biên bản tổng hợp

tổ thành từng khung, mục cụ thể. Sau đó ghép các khung, mục của từng thành

viên, chỉnh sửa lại trở thành bản tổng hợp chung. Bản tổng hợp này sẽ được

trình lãnh đạo Văn phòng phê duyệt.

Page 18: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

18

+ Lãnh đạo Văn phòng sẽ xem xét bản tổng hợp chung do đồng chí trưởng

nhóm gửi, cho ý kiến để chỉnh sửa, phê duyệt và trình các đồng chí lãnh đạo

Đảng được phân công phụ trách vấn đề đó.

Hình 1.1. Mô tả nghiệp vụ tổng hợp trên giấy

- Về quy trình và thời gian hoàn thành công việc của nhóm tổng họp chung:

+ Thành viên nhóm tổng hợp chung bắt đầu làm việc từ khi Hội nghị nghỉ

giải lao, khi đó các ý kiến thảo luận được ghi tại biên bản chi tiết (quyển 1) của

thư ký các tổ sẽ được sao chụp lại gửi từng thành viên trong nhóm. Từng thành

viên phải đọc lần lượt biên bản từng tổ để lựa chọn ý kiến về khung, mục mà

mình được phụ trách tổng hợp. Sau khi Hội nghị họp xong thì các ý kiến thảo

luận được ghi tại biên bản chi tiết (quyển 2) của thư ký các tổ sẽ được sao chụp

và gửi đến từng thành viên. Các thành viên trong nhóm tiếp tục đọc biên bản

từng tổ để lựa chọn ý kiến về khung mục mình được phụ trách tổng hợp.

Page 19: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

19

+ Thành viên nhóm tổng hợp chung sau khi nhận được bản tổng hợp tổ thì

đọc lần lượt các bản tổng hợp tổ đó, lựa chọn các ý trong phần khung mục mà

mình được phân công đối chiếu với những nội dung mà đã tổng hợp (từ các biên

bản chi tiết ở mỗi tổ) trước đó. Mỗi thành viên tổ tổng hợp chung phải hoàn

thành công việc trong vòng 4 tiếng kể từ khi Hội nghị kết thúc.

+ Sau đó từng thành viên sẽ gửi cho người trưởng nhóm tổng hợp phần việc

của mình. Người trưởng nhóm sẽ gộp các phần đó lại và tiến hành chỉnh sửa để

thành bản tổng hợp chung. Thời gian hoàn thành công việc khoảng 6 tiếng sau

khi Hội nghị kết thúc.

+ Sau đó bản tổng hợp chung được gửi lên lãnh đạo Văn phòng để cho ý

kiến và phê duyệt phát hành.

Trong một số trường hợp, nếu xét thấy các nội dung tổng hợp còn có những

vấn đề chưa hợp lý hoặc chưa thật sự rõ ràng, Lãnh đạo Văn phòng Trung ương

Đảng, trưởng nhóm tổng hợp chung có thể xem xét lại biên bản ghi chi tiết tại

các tổ.

2.2. Phần mềm Hỗ trợ tổng hợp ý kiến thảo luận Tổ

Trên cơ sở khảo sát, nghiên cứu quy trình tổng hợp ý kiến tại các Hội nghị

Trung ương Đảng trên giấy, Văn phòng Trung ương Đảng đã xây dựng và áp

dụng phần mềm Hỗ trợ tổng hợp ý kiến với các tiến trình sau:

Page 20: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

20

(*) Trong một buổi tổng hợp có thể có hơn một chủ đề được tổng hợp

(**) Trong trường hợp người Tổ trưởng Tổ thư ký tổng hợp ngay tại Hội

trưởng (không có kết nội mạng), phần mềm cho phép tổng hợp tại máy tính

riêng lẻ sau đó nhập vào phần mềm chung.

Trưởng nhóm tổng hợp chung tạo chủ đề, phân

công cho các thành viên tổng hợp theo các khung

mục (*)

Tổ trưởng Thư ký tổ nhập nội

dung tổng hợp của tổ mình vào

các mục. Người tổ trưởng có

thể in hoặc xuất ra Word nội

dung tổng hợp của tổ (**)

Thành viên nhóm tổng hợp

chung tổng hợp các phần được

phân công (người trưởng nhóm

có thể tổng hợp một nội dung

trong chủ đề)

Chủ đề đã

tạo các

khung mục

Các phần được

phân công

tổng hợp

Người Trưởng nhóm tổng hợp

chung có nhiệm vụ tổng hợp

các phần của thành viên nhóm

tổng hợp. Bản cuối cùng có thể

in ra hoặc xuất ra Word để lưu

Nội

dung góp ý

của tổ

Nội dung các

phần tổng hợp

Page 21: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

21

Hình 1.2. Mô hình nghiệp vụ phần mềm Hỗ trợ tổng hợp ý kiến

Về cơ bản, quy trình tổng hợp ý kiến khi sử dụng phần mềm Hỗ trợ tổng

hợp ý kiến là giống với quy trình tổng hợp trên giấy. Tuy nhiên, biên bản tổng

hợp tổ được nhập vào máy và chuyển tới các thành viên của nhóm tổng hợp

chung (thay vì sao chụp biên bản của từng tổ đến từng đồng chí) để tổng hợp các

nội dung, vấn đề được phân công.

Để chuẩn bị cho việc tổng hợp bằng phần mềm, cán bộ kỹ thuật phải phối

hợp chặt chẽ với các đồng chí phụ trách tổng hợp chung, tiếp nhận đề cương và

danh sách phân công tổng hợp từ đó tạo các khung, mục, phân quyền cho các

thành viên trong nhóm tổng hợp chung việc tổng hợp ý kiến bằng phần mềm.

Page 22: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

22

Trong quá trình tổng hợp tổ, tổ trưởng thư ký ở các tổ tổng hợp ý kiến theo

các khung, mục đã được tạo sẵn. Sau đó, phần mềm cũng tự động phân mục

tổng hợp cho nhóm tổng hợp chung theo đúng yêu cầu của đồng chí phụ trách

tổng hợp chung. Các đồng chí trong nhóm tổng hợp chung sẽ sử dụng kết quả đó

của phần mềm để tổng hợp các vấn đề, nội dung do mình phụ trách.

Hình 1.3. Kết quả bản tổng hợp các ý kiến góp ý của các Tổ

* Đánh giá chung

Việc ứng dụng phần mềm vào trong quy trình tổng hợp ý kiến tại Hội nghị

của Trung ương đã tạo có những tác dụng nhất định trong nâng cao hiệu quả

công tác của cơ qua, đơn vị, cụ thể là:

- Giúp cho việc tổng hợp các ý kiến có chất lượng hơn, tránh được tình

trạng tổng hợp thiếu ý kiến của đại biểu, vì sản phẩm chính của phần mềm là tạo

ra một bản tổng hợp trong đó gộp các ý kiến góp ý của các tổ theo từng mục nội

dung đã được tạo dựng sẵn.

- Giúp cho các chuyên viên tổng hợp chung không phải mất thời gian,

thuận lợi hơn trong việc đọc, biên tập các nội dung được phân công tổng hợp

Page 23: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

23

trong số tất cả biên bản tổng hợp ở các tổ; hạn chế tối đa việc “bỏ sót” ý kiến

thảo luận ở tổ

- Góp phần chuẩn hóa biên bản tổng hợp tổ, tạo điều kiện thuận lợi cho

lãnh đạo và các đồng chí phụ trách theo dõi, đánh giá chất lượng của kết quả

tổng hợp ở tổ.

- Việc ứng dụng phần mềm cũng đã có tác dụng làm hạn chế tối đa việc in

ấn, sao chụp, tiết kiệm thời gian, văn phòng phẩm; đồng thời tạo môi trường làm

việc khoa học, chuyên nghiệp hơn.

Tuy nhiên, trong quá trình sử dụng, vận hành ứng dụng còn một số hạn chế,

thiếu linh hoạt và sử dụng còn khó,… Cụ thể, mỗi khi có chủ đề và nội dụng

thảo luận, việc thiết lập chủ đề và các nội dung thảo luận phải do cán bộ kỹ thuật

thực hiện. Việc sử dụng phần mềm Hỗ trợ tổng hợp ý kiến chủ yếu là do cán bộ

Trung tâm Công nghệ thông tin vận hành và kết xuất thông tin cho các đồng chí

thư ký tổ và nhóm tổng hợp chung, do vậy tính chủ động sử dụng, cập nhật, khai

thác, kết xuất thông tin của thư ký tổ và nhóm tổng hợp chung chưa cao. Quá

trình tổng hợp ý kiến thảo luận tổ không kết thúc cùng một thời điểm, do vậy để

kết quả tổng hợp được đầy đủ phải chờ ý kiến tổng hợp của tổ thực hiện cuối

cùng do phần mềm chưa có tính năng update ý kiến thảo luận sau vào bản tổng

hợp ban đầu.

Đặc biệt phần mềm chỉ mang tính tập hợp các ý kiến các tổ theo các khung

mục cho trước mà chưa hỗ trợ đánh dấu, phát hiện ý giống nhau trong các bản

tổng hợp tại tổ và bản tổng hợp chung do vậy hiệu quả hỗ trợ chưa được cao.

3. Xác định bài toán cần giải quyết

Để hỗ trợ tốt hơn việc tổng hợp ý kiến thảo luận Tổ tại các Hội nghị Trung

ương, rất cần thiết phải giải quyết bài toán phát hiện, đánh dấu các nội dung

giống nhau trong các ý kiến góp ý vào trong cùng một vấn đề. Qua đó, giúp các

chuyên viên nhanh chóng nhận biết, lược bỏ các ý kiến giống nhau đã được tổng

hợp trước. Yêu cầu cần đáp ứng khi giải quyết bài toán là không đòi hỏi phát

Page 24: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

24

hiện chính xác nội dung giống nhau (chỉ cần gần giống hoặc tương tự) và giải

pháp kỹ thuật không quá phức tạp. Người sử dụng sẽ quyết định sự trùng lặp về

nội dung và quyết định có lược bỏ hay không. Vì vậy, yêu cầu về độ chính xác

của giải pháp như trên là đảm bảo nhu cầu sử dụng.

Page 25: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

25

CHƢƠNG 2

CÁC PHƢƠNG PHÁP TÍNH ĐỘ TƢƠNG ĐỒNG CÂU

1. Khái niệm độ tƣơng đồng câu

Sự tương đồng là một đại lượng (con số) phản ánh cường độ của mối quan

hệ giữa hai đối tượng hoặc hai đặc trưng. Đại lượng này thường ở trong phạm

vi từ 0 đến 1.

Ví dụ, trong mô hình không gian vector, ta sử dụng độ đo cosine để tính

độ tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector.

Phát biểu bài toán độ tính tương đồng câu của luận văn này như sau: Xét

một tài liệu d gồm có n câu: d = s1, s2, …, sn. Mục tiêu của bài toán là tìm ra một

giá trị của hàm S(si, sj) với S϶ (0,1), và i, j = 1, ..., n. Hàm S(si, sj) được gọi là

độ đo tương đồng giữa hai câu si và sj. Giá trị càng cao thì sự giống nhau về

nghĩa của hai câu càng nhiều.

Độ tương đồng ngữ nghĩa là một giá trị tin cậy phản ánh mối quan hệ ngữ

nghĩa giữa hai câu. Trên thực tế, khó có thể lấy một giá trị có chính xác cao bởi

vì ngữ nghĩa chỉ được hiểu đầy đủ trong một ngữ cảnh cụ thể.[4]

2. Các phƣơng pháp tính độ tƣơng đồng câu

Hiện nay, trên thế giới và ở Việt Nam đã có nhiều nghiên cứu về bài toán

tính độ tương đồng câu, có nhiều phương pháp đã được đưa ra và ngày càng cải

thiện tính chính xác. Luận văn xin giới thiệu một số phương pháp điển hình. Qua

đó, lựa chọn phương pháp phù hợp nhất với điều kiện thực tế khi áp dụng vào

bài toán phát hiện ý trùng trong phần mềm Hỗ trợ tổng hợp ý kiến.

2.1. Phương pháp tính độ tương đồng câu dựa vào WordNet

Ý tưởng chính của phương pháp này là thông qua tập ngữ nghĩa (WordNet)

để tính toán độ tương đồng giữa các từ trong các câu, qua đó tính độ tương đồng

Page 26: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

26

của các câu. Ngoài ra để tăng thêm phần chính xác còn có kết hợp tính sự tương

đồng vị trí xuất hiện các từ của các câu.[12]

Giới thiệu về WordNet

WordNet là kho dữ liệu tiếng Anh, các từ tiếng Anh được nhóm thành các

bộ từ đồng nghĩa được gọi là synset, cung cấp các định nghĩa chung và ngắn

gọn, đồng thời ghi lại giá trị quan hệ ngữ nghĩa giữa các bộ đồng nghĩa. Phương

pháp tính độ tương đồng giữa 2 từ dựa vào độ dài ngắn nhất trên sơ đồ phân cấp.

Hình 2.1. Sơ đồ phân cấp các từ trong WordNet

Ví dụ:

+ Hai từ boy, girl có độ dài là 4: boy-male-person-female-girl.

Person gọi là subsumer của hai từ

+ Hai từ teacher, boy có độ dài :6

Boy, girl có độ tương đồng hơn so với teacher, boy.

+ Nhược điểm:

Độ chính xác đôi khi chưa cao.

Ví dụ: animal và boy có độ dài ngắn hơn teacher và boy nhưng về ngữ

nghĩa từ teacher, boy có tính tương đồng cao hơn.

Page 27: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

27

Các bƣớc tính độ tƣơng đồng của câu

Hình 2.2. Sơ đồ tính độ tương đồng của câu

Để tính độ tương đồng của hai câu cần thực hiện các bước sau

• Bước 1: Tiền xử lý dữ liệu.

• Bước 2: Tính độ tương đồng của hai từ (dựa vào WordNet).

• Bước 3: Tính độ tương đồng ngữ nghĩa của hai câu.

• Bước 4: Tính độ tương đồng thứ tự các từ của hai câu.

• Bước 5: Tính độ tương đồng hai câu (kết quả của bước 3, bước 4).

Tính độ tƣơng đồng của hai từ (dựa vào WordNet)

Sau khi xử lý dữ liệu, độ tương đồng giữa hai từ được tính bằng công thức

hh

hhl

ee

eeewws

.),( 21

Trong đó:

- e: cơ số logarit tự nhiên

- l: độ dài ngắn nhất của từ hai wi ,wj

Page 28: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

28

- h: là độ cao của subsumer của hai từ trong sơ đồ phân cấp

- Đối với WordNet thì tối ưu : α=0.2 và β=0.45

Tính độ tƣơng đồng ngữ nghĩa của hai câu

Gọi Si là vector ngữ nghĩa của mỗi câu. Sự tương đồng ngữ nghĩa hai câu là

hệ số cosine giữa hai vector

||||.||||

.

21

21

ss

ssss

Trong đó vector ngữ nghĩa của câu được biểu diễn như sau:

Cho hai câu T1,T2 có:

Vector ngữ nghĩa của T1 là vector có m chiều với mỗi giá trị được tính

bằng công thức

)().(.~

iii wIwIss

),..2,1( mis i

: là tính tương đồng của từ trong câu T1 với T

Để khắc phục nhược điểm giá trị tính độ tương đồng thường rất nhỏ, sử

dụng giá trị trọng số )( iwI của từ iw và )(~

iwI trọng số của các từ liên kết trong

câu.

- )( iwI được tính nhờ bộ ngữ liệu Brow Corpus (được Brow University tạo

năm 1961)

)1log(

)1log(1)(

N

nwI

- N: tổng số từ trong bộ ngữ nghĩa.

21 TTT

}...,{ 21 mwqw

Page 29: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

29

- n: tần xuất của một từ trong bộ ngữ nghĩa

Tính độ tƣơng đồng thứ tự các từ của hai câu

Tuy nhiên trong thực tế xảy ra trường hợp các từ trong câu giống nhau

nhưng ngữ nghĩa lại khác nhau. Nguyên nhân do vị trí của các từ trong câu. Gọi

r là vector thứ tự trong câu. Công thức tính độ tương đồng thứ tự các từ trong

câu:

||||

||||1S

21

21r

rr

rr

Trong đó vector thứ tự r được biểu diễn như sau:

- Cho hai câu T1,T2 có: 21 TT

- Biểu diễn vector r của T1,T2 dựa vào T.

Với mỗi từ wi trong T, tìm trong các từ tương đồng trong T1:

+ Nếu xuất hiện trong T1 thì giá trị là vị trí của từ trong T1

+ Tìm từ tương đồng gần nhất trong T1 vị trí của từ gần nhất là giá trị

vector.

+ Ngược lại giá trị = 0

Tính độ tƣơng đồng hai câu

Độ tương đồng giữa hai câu được tính dựa trên công thức

||||

||||)1(

||||.||||

.),(

21

21

21

2121

rr

rr

SS

SSTTS

- Với δ là một hằng số.

Đặc điểm:

- Phương pháp tính trực quan, dễ hiểu, độ chính xác cao.

Page 30: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

30

- Hiện nay tiếng Việt chưa có bộ ngữ nghĩa WordNet đủ lớn để áp dụng

vào bài toán thực tế.

- Xây dựng bộ ngữ nghĩa WordNet đòi hỏi nhiều công sức, chi phí cao

2.2. Phương pháp tính độ tương đồng câu dựa vào Wikipedia

Giới thiệu mạng ngữ nghĩa Wikipedia

Wikipedia là một bách khoa toàn thư nội dung mở, là kết quả của sự cộng

tác của chính những người đọc từ khắp nơi trên thế giới. Trang mạng này có tính

chất mở, có nghĩa là tất cả mọi người đều có thể sửa đổi ở bất cứ trang nào bằng

cách bấm vào các liên kết “sửa đổi”, hoặc “Sửa đổi trang này”, có ở hầu hết các

trang, ngoại trừ các cá nhân bị tước quyền sửa đổi và nhữngtrang bị khóa.

Wikipedia chính thức bắt đầu vào ngày 15 tháng 1 năm 2001 nhờ hai

người sáng lập Jimmy Wales và Larry Sanger cùng với vài người cộng tác nhiệt

thành và chỉ có phiên bản tiếng Anh. Hiện tại đã có hơn 4.300.000 bài viết ở

riêng phiên bản tiếng Anh, hơn 30.000.000 bài viết ở tất cả phiên bản ngôn ngữ.

Mỗi ngày hàng trăm nghìn người ghé thăm từ khắp nơi để thực hiện hàng chục

nghìn sửa đổi cũng như bắt đầu nhiều bài viết mới.

Wikipedia tiếng Việt được thành lập vào tháng 10 năm 2003. Hiện nay đã

có 1.149.101 bài viết bằng tiếng Việt với 3.234.593 trang [5].

Kiến trúc mạng Wikipedia

Các bài viết của Wikipedia được tổ chức dưới dạng một mạng các khái

niệm liên quan với nhau về mặt ngữ nghĩa. Các mục chủ đề (category) được tổ

chức trong một cấu trúc phân cấp (taxonomy) được gọi là đồ thị chủ đề

Wikipedia (Wikipedia Category Graph - WCG)[20].

Page 31: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

31

Hình 2.3. Đồ thị chủ đề Wikipedia

Đồ thị bài viết (Article graph): Giữa các bài viết của Wikipedia có các

siêu liên kết với nhau, các siêu liên kết này được tạo ra do quá trình chỉnh sửa

bài viết của người sử dụng. Nếu ta coi mỗi bài viết như là một nút và các liên kết

từ một bài viết đến các bài viết khác là các cạnh có hướng chạy từ một nút đến

các nút khác thì ta sẽ có một đồ thị có hướng các bài viết trên Wikipedia.

Đồ thị chủ đề (Category graph): Các chủ đề của Wikipedia được tổ chức

giống như cấu trúc của một taxonomy. Mỗi một chủ đề có thể có một số lượng

tùy ý các chủ đề con, mỗi một chủ đề con này thường được xác định bằng mối

quan hệ hyponymy (quan hệ giữa hai chủ đề, chủ đề 1 bao chủ đề kia nhưng

không ngược lại).

Ví dụ: chủ đề vehicle có các chủ đề con aircraft hoặc watercraft.

Tính độ tƣơng đồng của hai từ trong Wikipedia

Có hai phương pháp tiếp cận để tính toán độ tương đồng dựa trên

Wikipedia.

- Semantic similarity (SS): tính độ tương đồng thông qua mối quan hệ ngữ

nghĩa.

Page 32: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

32

- Semantic relatedness (SR): tính độ tương đồng qua bao phủ (có thể hiều

mức cha) của hai từ.

(1) Phương pháp tiếp cận Semantic similarity

Phương pháp này sử dụng các thuật toán xử lý ngôn ngữ tự nhiên để tính

toán mối quan hệ giữa các từ cần xác định độ tương đồng. Một trong các thuật

toán được đưa ra như sau[18]

Hình 2.4. Mô hình tính độ tương đồng giữa hai từ dựa trên Wikipedia

Để tính độ tương đồng giữa hai từ, người ta dựa trên Wikipedia để trích

một đoạn văn ngắn có liên quan đến từ đó (Wiki Snippet Extraction). Khi tìm

kiếm một từ trên Wikipedia, thì kết quả trả về thường là một văn bản định nghĩa,

giải thích về từ đó. Những đoạn văn này sẽ được sử dụng để tính toán độ tương

đồng ngữ nghĩa giữa các từ.

Page 33: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

33

Hình 2.5. Trích xuất tập các từ dựa trên Wikipedia

Sau khi lấy được đoạn văn thì đoạn văn đó được qua các bước xử lý dữ

liệu như là loại bỏ các từ dùng, những từ không có giá trị. Kết quả thu được là

một tập các từ, sau đó người ta sử dụng các thuật toán xử lý ngôn ngữ tự nhiên

thông qua các độ đo như Cosine, Jaccard để tính toán.

(2) Phương pháp tiếp cận Semantic relatedness (SR)

Phương pháp tính độ đo SR trên đồ thị WCG bằng cách cải tiến các độ đo

tính toán sự tương đồng ngữ nghĩa của hai từ trên Wordnet. Phương pháp này

được chia làm hai loại độ đo:

+ Độ đo dựa khoảng cách giữa các khái niệm (path based). Kết quả tính

càng nhỏ tức là mối tương đồng càng gần với nhau.

+ Độ đo dựa vào thông tin giữa các khái niệm (information content

based). Kết quả tính càng lớn mối quan hệ tương đồng càng gần nhau.

Một số độ đo được sử dụng trong Wordnet:

- Rada (1989) sử dụng độ khoảng cách hai nút tính SR

Page 34: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

34

),( 21 nnldistPL

- Leacock và Chodorow (1998)

depth

nnlnnsimLC

2

),(log),( 21

21

depth: độ sâu của đồ thị

- Resnik (1995) định nghĩa độ đo dựa vào nội dung thông tin (IC) là độ đo

thông của mức cha gần nhất (lowest common subsumer) của hai khái niệm

)),((),( 2121 cclcsicccres

- Lin (1998) đề xuất

)()(

)(2),(

21

21nICnIC

lcsICnnsimLin

Đặc điểm:

- Bộ dữ liệu Wikipedia có thể được tải về máy tính cá nhân

- Do là từ điển mở nên độ chính xác của dữ liệu phụ thuộc hoàn toàn vào

người đăng tin trên Internet, khi tính toán độ tương đồng dựa vào dữ liệu này kết

quả có thể thiếu chính xác.

2.3. Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn (Latent

Dirichlet Allocation)

Ý tưởng của phương pháp là tính độ tương đồng câu dựa trên mô hình phân

tích chủ đề ẩn LDA (Latent Dirichlet Allocation) [2,15]. Mô hình tính độ tương

đồng câu dựa vào chủ đề ẩn như sau:

Page 35: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

35

Hình 2.6. Mô hình tính độ tương đồng câu dựa vào chủ đề ẩn

Giải thích mô hình:

+ Chọn một tập “universal dataset” và phân tích chủ đề cho nó (quá trình

ước lượng tham số theo mô hình LDA).

+ Kết quả lấy ra được các chủ đề trong tập “universal dataset”, các chủ đề

này được gọi là chủ đề ẩn.

+ Đầu vào là một văn bản đơn, sau các bước tiền xử lý văn bản sẽ thu được

một danh sách các câu.

+ Suy luận chủ đề cho các câu đã qua tiền xử lý, kết quả thu được một danh

sách các câu được thêm chủ đề ẩn.

Mô hình LDA dựa trên ý tưởng là giả thuyết mỗi một tài liệu là sự tổ hợp

của một tập các chủ đề (topic) ẩn k với các trọng số p(k|d) (là xác suất xuất hiện

của chủ đề k trong tài liệu d), trong đó mỗi chủ đề lại là sự tổ hợp của một tập

các từ vựng xuất hiện trong các tài liệu với các trọng số p(w|k) (là xác suất xuất

hiện của từ vựng w trong chủ đề k). Khi đó, dựa trên các thông tin về các chủ đề

Page 36: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

36

của từng tài liệu, cụ thể ở đây là p(k|d) có thể tính độ tương đồng của các tài

liệu.

Hình 2.7. Mô hình LDA

- α tham số Dirichle

- β tham số Dirichle

- θd phân phối các chủ đề trong tài liệu thứ d

- Zd,n topic index (từ n của tài liệu d)

- Wd,n từ n của tài liệu d chỉ bởi Zd,n

- ɸk (phi) phân phối của các từ được sinh ra bởi topic Zd,n

- K: số chủ đề (topic)

- D: số tài liệu

- N: số lượng các từ trong tập tài liệu D

Trong LDA được chia làm ba mức: mức tập tài liệu, mức tài liệu, và mức

từ. Các tham số (α,β ) là các tham số ở mức tập tài liệu, các biến θd là các biến ở

mức tài liệu và các biến Wd,n là các biến ở mức từ và được xác định với mỗi từ

trong mỗi tài liệu.

Thông qua mô hình LDA ta tính được trọng số của mỗi chủ đề trên tài liệu

K

kd

kd

kd

1 ,

,

,

Khi đó vector tương ứng với tài liệu d có dạng như sau:

Page 37: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

37

Sd={θ1,θ2,…,θK}

Với hai tài liệu (hai câu) thứ d và thứ p sử dụng độ đo cosine để tính

độ tương đồng giữa chúng.

K

k

k

p

K

k

k

d

K

k

k

p

k

dpdSim

1

22

1

1

)()(

),(

Đặc điểm

- Cần một tập dữ liệu lớn, đa dạng về lĩnh vực để phân tích chủ đề (có thể

tải dữ liệu trên mạng Internet)

- Kết quả phụ thuộc vào giá trị chủ đề ẩn k đưa vào

2.4. Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn

(Latent Semantic Analysis)

Phân tích ngữ nghĩa tiềm ẩn là một thuật toán trích xuất và đại diện nội

dung ngữ nghĩa sử dụng tính toán thống kê với một tập văn bản lớn (Landauer

và Dumais, 1997). Ý tưởng cơ bản là lấy tập hợp các từ trong tập văn bản, đưa

ra từ xuất hiện hoặc không xuất hiện trong các văn bản thuộc tập văn bản đó, sau

đó tính toán sự tương đồng của các từ với các từ khác hoặc của tập từ với tập từ

khác [10].

LSA giả định rằng những từ có ngữ nghĩa gần nhau thường xuất hiện trong

cùng ngữ cảnh. Xuất phát từ bảng dữ liệu D kích thước nm , mỗi hàng tượng

trưng cho một ký tự, mỗi cột tượng trưng cho một đoạn văn bản, mỗi một ô chứa

tần suất mà từ ở dòng ma trận xuất hiện trong đoạn văn bản được biểu diễn tại

cột của ma trận. Sau đó, LSA sử dụng kỹ thuật phân tích giá trị đơn (Singular

Value Decomposition - SVD) rút trích mối tương quan ngữ nghĩa giữa các từ

trong tập văn bản, giảm số cột (chiều) về k đặc trưng tiềm ẩn của bảng dữ liệu,

thu được bảng R kích thước km trong khi vẫn giữ được cấu trúc tương tự của

các dòng trong bảng R.

Page 38: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

38

Singular Value Decomposition - SVD

Mọi ma trận có kích thước Amxn được phân tích dưới dạng 3 ma trận như

sau

A=U.Ʃ.VT

- Ma trận U có kích thước mm là một ma trận trực giao

- Ma trận V có kích thước nn là một ma trận trực giao

- Ma trận Ʃ có kích thước nm là một ma trận đường chéo có dạng:

0....0

..........

0....rr

nm

D

với

r

D

....0

............

0....1

Các σi được gọi là các giá trị đơn (singular values) và 0....21 r

Các ma trận U, Ʃ, VT được xây dựng như sau:

- Các giá trị đơn ii (λi là các giá trị riêng của ma trận ATA)

- Ma trận V được xây dựng dựa trên các vector riêng của ma trận

ATA). Cụ thể: vvvV ....1

- Xây dựng ma trận U:

Với các σi là giá trị đơn của ma trận A. Đặt i

i

i Avu

1 . Từ đó xây dựng

được ma trận muuU ....1

Ví dụ: Triển khai SVD của ma trận

100

011A

(1) Tìm các giá trị riêng của ma trận ATA.

100

011

011

100

011

10

01

01

AAT

Page 39: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

39

Giải phương trình det(A-λ.I)=0 được các giá trị riêng của ma trận ATA

21 , 12 , .03

Với mỗi giá trị riêng i giải phương trình 0)( xIA ta được các vector

riêng tương ứng là:

0

2/1

2/1

,

1

0

0

,

0

2/1

2/1

321 vvv

Ma trận

02/12/1

100

02/12/1TV

Các giá trị đơn của ma trận A là: 0,1,2 321

Ma trận

010

002

Tìm ma trận U:

Avui

i

1

0

1

0

2/1

2/1

100

011

2

11u

1

0

1

0

0

100

011

1

12u

10

01U

Phân tích SVD của ma trận A là:

Page 40: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

40

A=U.Ʃ.VT

=

02/12/1

100

02/12/1

010

002

10

01

Phân tích giá trị đơn (SVD) trong LSA

Trong LSA ma trận biểu diễn mối quan hệ giữa các từ và văn bản là

ma trận Amxn là một ma trận thưa có kích thước lớn. Để giảm số chiều của

ma trận người ta thường tìm cách xấp xỉ ma trận A (có hạng r) bằng một

ma trận Ak có hạng k nhỏ hơn rất nhiều. Ma trận xấp xỉ của A là

Ak=UkƩkVkT, trong đó:

- Uk là ma trận trực giao km có các cột là k cột đầu tiên của ma trận

U.

- Ʃk là ma trận đường chéo kk chứa các phần tử đầu tiên σ1, σ2,…σk

trên đường chéo chính.

- Vk là ma trận trực giao kn có các cột là k cột đầu của ma trận V.

Hình 2.8. SVD trong LSA

Việc xấp xỉ này có thể xem như chuyển không gian đang xét (r chiều)

về không gian k chiều, với k <<r. Về mặt thực hành việc cắt ma trận A về

số chiều k còn loại bỏ nhiễu và tăng cường các mối liên kết ngữ nghĩa tiềm

Page 41: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

41

ẩn giữa các từ trong tập văn bản [1]. Trong LSA các ma trận Ak được gọi là

không gian ngữ nghĩa (semantic space). Độ phức tạp của thuật toán SVD là

O(n2k

3), trong đó n là số từ, k là số chiều trong không gian ngữ nghĩa (khoản ~

50 đến 350).

Để có thể hiểu rõ hơn về LSA ta xem xét một ví dụ sau [8].

Có 9 câu về công nghệ thông tin

c1: Human machine interface for ABC computer applications

c2: A survey of user opinion of computer system response time

c3: The EPS user interface management system

c4: System and human system engineering testing of EPS

c5: Relation of user perceived response time to error measurement

m1: The generation of random, binary, ordered trees

m2: The intersection graph of paths in trees

m3: Graph minors IV: Widths of trees and well-quasi-ordering

m4: Graph minors: A survey

c1 c2 c3 c4 c5 m1 m2 m3 m4

human 1 0 0 1 0 0 0 0 0

interface 1 0 1 0 0 0 0 0 0

computer 1 1 0 0 0 0 0 0 0

user 0 1 1 0 1 0 0 0 0

system 0 1 1 2 0 0 0 0 0

response 0 1 0 0 1 0 0 0 0

time 0 1 0 0 1 0 0 0 0

EPS 0 0 1 1 0 0 0 0 0

survey 0 1 0 0 0 0 0 0 1

trees 0 0 0 0 0 1 1 1 0

graph 0 0 0 0 0 0 1 1 1

minors 0 0 0 0 0 0 0 1 1

Hình 2.9. Ma trận biểu diễn, mỗi ô là số lần xuất hiện của từ trong câu

văn, mỗi một từ xuất hiện ít nhất trong 2 câu

Page 42: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

42

Hình 2.10. Ma trận U

Hình 2.11. Ma trận giá trị đơn với k=2

Hình 2.12. Ma trận V

Page 43: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

43

Kết quả tính toán SVD Ak==UkƩkVkT với k=2

Hình 2.13. Ma trận được xây dựng lại với k=2

Qua ví dụ trên, thấy rằng tại ma trận được xây dựng lại mối quan hệ giữa

các từ trong câu đã thay đổi do việc tính toán liên quan đến các từ trong tập văn

bản. Ví dụ từ “survey” với câu m4 ban đầu là 1, qua biến đổi giá trị 0.42; từ

“trees” với câu m4 ban đầu là 0, qua biến đổi giá trị 0.66. Sự thay đổi này được

chứng minh là chính xác hơn so với mối quan hệ ban đầu.

Để tăng tính chính xác khi xây dựng ma trận biểu diễn trong mô hình LSA

người ta sử dụng kỹ thuật tf–idf (term frequency – inverse document frequency).

Tf-idf của một từ là một con số thu được qua hể hiện mức độ quan trọng của từ

này trong một văn bản, mà bản thân văn bản đang xét nằm trong một tập hợp

các văn bản.

TF- term frequency – tần số xuất hiện của 1 từ trong 1 văn bản. Cách tính:

Page 44: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

44

tf(t,d)=f(t,d)/max{f(w,d):w∈d}

- Thương của số lần xuất hiện 1 từ trong văn bản và số lần xuất hiện nhiều

nhất của một từ bất kỳ trong văn bản đó. (giá trị sẽ thuộc khoảng [0, 1])

- f(t,d) - số lần xuất hiện từ t trong văn bản d.

- max{f(w,d):w∈d} - số lần xuất hiện nhiều nhất của một từ bất kỳ trong

văn bản.

IDF – inverse document frequency. Tần số nghịch của 1 từ trong tập văn

bản (corpus).

Tính IDF để giảm giá trị của những từ phổ biến. Mỗi từ chỉ có 1 giá trị IDF

duy nhất trong tập văn bản.

idf(t,D)=log|D||{d∈D:t∈d}|

- |D|: - tổng số văn bản trong tập D

- |{d∈D:t∈d}|: - số văn bản chứa từ nhất định, với điều kiện t appears

(i.e., tf(t,d)≠0). Nếu từ đó không xuất hiện ở bất cứ 1 văn bản nào trong tập thì

mẫu số sẽ bằng 0 => phép chia cho không không hợp lệ, vì thế người ta thường

thay bằng mẫu thức 1+|{d∈D:t∈d}|.

Cơ số logarit trong công thức này không thay đổi giá trị của 1 từ mà chỉ thu

hẹp khoảng giá trị của từ đó. Vì thay đổi cơ số sẽ dẫn đến việc giá trị của các từ

thay đổi bởi 1 số nhất định và tỷ lệ giữa các trọng lượng với nhau sẽ không thay

đổi. (nói cách khác, thay đổi cơ số sẽ không ảnh hưởng đến tỷ lệ giữa các giá trị

IDF). Tuy nhiên việc thay đổi khoảng giá trị sẽ giúp tỷ lệ giữa IDF và TF tương

đồng để dùng cho công thức TF-IDF như bên dưới.

Giá trị TF-IDF:

tfidf(t,d,D)=tf(t,d)×idf(t,D)

Page 45: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

45

Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản

này, và xuất hiện ít trong các văn bản khác. Việc này giúp lọc ra những từ phổ

biến và giữ lại những từ có giá trị cao (từ khoá của văn bản đó).

Vector ngữ nghĩa của câu được biểu diễn trong mô hình LSA như sau:

Trong LSA ngữ nghĩa của câu, đoạn văn là tổng ngữ nghĩa của các từ trong

câu, đoạn văn đó.

Meaning passage = Ʃ(mword1, mword2,…mwordn) [11]

Trong đó mỗi một từ được biểu diễn bởi một hàng ngang của ma trận

không gian ngữ nghĩa.

Tính độ tương đồng giữa các câu

Để tính độ tương đồng giữa hai từ, hai câu trong LSA sử dụng độ đo

Cosine giữa các vector.

||||.||||

.

21

21

ss

ssss

Đặc điểm

- Trực quan, dễ hiểu

- Cần bộ dữ liệu để tạo ma trận ngữ nghĩa ban đầu nhưng không đòi hỏi bộ

dữ liệu quá lớn.

- Độ chính xác tăng cao khi dữ liệu đưa vào tạo ma trận ngữ nghĩa cùng

ngữ cảnh với dữ liệu cần so sánh.

- Nếu một vấn đề mới được đưa ra, có thể có những từ quan trọng lại chưa

được xây dựng trong không gian ngữ nghĩa gây ra độ chính xác khi so sánh thấp.

3. Đánh giá và lựa chọn phƣơng pháp

Để xây dựng chức năng phát hiện, đánh dấu nội dung giống nhau trong

tổng hợp ý kiến thảo luận tổ nhằm hỗ trợ chuyên viên trong quá trình tổng hợp,

Page 46: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

46

tiêu chí lựa chọn phương pháp thực hiện là độ chính xác thuật toán đảm bảo xác

định tính tương đồng, đặc biệt là khả thi trong điều kiện hiện tại của cơ quan.

Qua nghiên cứu các phương pháp tính toán độ tương đồng câu trên, có một số

đánh giá và đề xuất lựa chọn phương pháp thực hiện bài toán như sau:

- Phương pháp tính độ tương đồng câu dựa vào WordNet đòi hỏi xây dựng

kho ngữ liệu tiếng Việt, cần rất nhiều công sức và người có chuyên môn cao về

ngôn ngữ để thực hiện. Điều này không phù hợp với điều kiện của cơ quan.

- Phương pháp tính độ tương đồng câu dựa vào Wikipedia cần tải bộ dữ

liệu Wikipedia tiếng Việt làm cơ sở để so sánh. Tuy nhiên do là từ điển mở nên

độ chính xác của dữ liệu phụ thuộc hoàn toàn vào người đăng tin trên Internet.

Các từ có thể có nhiều định nghĩa khác nhau tùy theo vấn đề nghiên cứu nên ảnh

hướng đến độ chính xác của thuật toán.

- Phương pháp tính độ tương đồng câu dựa vào chủ đề ẩn cần một tập dữ

liệu lớn, đa dạng về lĩnh vực để phân tích chủ đề. Trong trường hợp số lượng

chủ đề đưa vào lớn, độ phức tạp của thuật toán NP-hard.

- Phương pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn cần

bộ dữ liệu để tạo ma trận ngữ nghĩa ban đầu nhưng không đòi hỏi bộ dữ liệu quá

lớn. Độ chính xác tăng cao khi dữ liệu đưa vào tạo ma trận ngữ nghĩa cùng ngữ

cảnh với dữ liệu cần so sánh.

Từ đánh giá trên, để giải quyết bài toán phát hiện nội dung giống nhau

trong tổng hợp ý kiến thảo luận tổ, trong luận văn lựa chọn sử dụng phương

pháp tính độ tương đồng dựa vào phân tích ngữ nghĩa tiềm ẩn. Lý do chính để

lựa chọn phương pháp là việc xây dựng không gian ngữ nghĩa dựa trên các dữ

liệu của các Hội nghị trước được lưu trữ lại. Phương pháp này đáp ứng được yêu

cầu đã xác định ở mục 3 của Chương I.

Page 47: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

47

CHƢƠNG 3

ĐỀ XUẤT GIẢI PHÁP PHÁT HIỆN NỘI DUNG GIỐNG NHAU

TRONG HỆ THỐNG TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ

1. Đề xuất giải pháp phát hiện nội dung giống nhau trong phần mềm

Hỗ trợ tổng hợp ý kiến thảo luận tổ

Hình 3.1. Mô hình phát hiện nội dung trùng trong tổng hợp ý kiến

Qua tình hình thực tế sử dụng phần mềm Hỗ trợ tổng hợp ý kiến và những

kiến thức đã trình bày ở trên, tác giả đề xuất mô hình phát hiện nội dung trùng

trong bản tổng hợp ý kiến của các tổ tại Hội nghị như sau:

- Các dữ liệu của các Hội nghị trước và các tài liệu liên quan đến vấn đề

xin ý kiến được số hóa, qua bước xử lý dữ liệu bao gồm tách từ tiếng Việt, loại

bỏ các dấu câu các dữ liệu này được lưu ra một tệp text.

- Sử dụng phương pháp LSA tệp dữ liệu này được xây dựng thành ma trận

ngữ nghĩa.

- Thông qua phần mềm Hỗ trợ tổng hợp ý kiến kết quả thu được là bản tổng

hợp ý kiến góp ý của các tổ. Người sử dụng lựa chọn câu (đoạn văn) để so sánh

với các câu (đoạn văn) khác cùng một mục.

- Qua bước xử lý dữ liệu câu (đoạn văn) được lựa chọn và các câu còn lại

được loại bỏ các dấu câu và lưu thành tệp các text.

Page 48: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

48

- Thông qua ma trận ngữ nghĩa đã được xây dựng từ trước, các câu (đoạn

văn) trong tệp chứa dữ liệu được lựa chọn và trong tệp chưa các câu cần so sánh

được biểu diễn thành các vector.

- Sử dụng thuật toán tính độ tương đồng xác định sự tương đồng của từng

câu (đoạn văn) với câu được lựa chọn. Thiết lập một ngưỡng về độ tương đồng

giữa các câu. Kết quả thu được là các câu có độ tương đồng vượt ngưỡng được

đánh dấu màu.

- Kết quả đánh dấu các câu (đoạn văn) giống nhau được hiển thị ngược trở

lại giao diện của bản tổng hợp ý kiến thảo luận tổ, giúp cho chuyên viên tổng

hợp theo dõi và ra quyết định lựa chọn hoặc loại bỏ ý kiến.

2. Xử lý dữ liệu

Trong bước xử lý dữ liệu, dữ liệu được loại bỏ những dấu câu như dấu

phẩy, dấu chấm, dấu chấm hỏi, dấu chấm than. Đối với văn bản là tiếng Việt xử

dụng công cụ tách từ để xác định các từ đơn, từ ghép cho trong văn bản. Cuối

cùng dữ liệu được xử lý được lưu thành các tệp text.

3. Thực nghiệm

3.1. Môi trường thực nghiệm

Quá trình thực nghiệm trên máy tính có cấu hình như sau:

Bảng 3.1. Cấu hình thiết bị môi trường thực nghiệm

Thành phần Chỉ số

CPU Intel (R) Pentium 1,87 Ghz

RAM 2 GB

HDD 320 GB

OS Windows 7 Home Basic 32 bits

Page 49: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

49

3.2. Chương trình phần mềm

Các thư viện sử dụng trong phần mềm (các packages của ngôn ngữ lập

trình R)

Bảng 3.2. Các thư viện sử dụng

STT Tên thư

viện Nguồn Mục đích

1 tm https://cran.r-

project.org/web/packages/tm/index.html

Các hàm xử

lý về text

mining

2 Lsa https://cran.r-

project.org/web/packages/lsa/index.html

Hàm xây

dựng không

gian ngữ

nghĩa

3 LSAfun https://cran.r-

project.org/web/packages/LSAfun/index.

html

Hàm tính toán

độ tương

đồng của các

câu

4 JVnTextPro Jvntextpro.sourceforge.net Thư viện tách

từ tiếng Việt

Phần giao diện được viết trên ngôn ngữ C#, có chức năng nhập vào một

đoạn văn bản và so sánh với một số đoạn văn bản khác sau với một ngưỡng

được thiết lập, sau đó tô đậm đoạn văn nào có độ tương đồng lớn hơn hoặc bằng

ngưỡng đã cho với đoạn văn nhập vào.

Page 50: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

50

3.3. Dữ liệu thực nghiệm

Dữ liệu để xây dựng ma trận ngữ nghĩa có kích thước 5092 từ và 687 dòng

về nội dung khởi nghiệp (kích thước ma trận 5092 x 687). Dữ liệu để so sánh là

một đoạn văn cần nhập vào (tương ứng với góp ý của một tổ) và 13 đoạn văn

khác (tương ứng của 13 tổ còn lại) có đề cập vấn đề khởi nghiệp.

3.4. Giao diện chương trình thực nghiệm

- Khởi tạo không gian ngữ nghĩa LSA

Có chức năng tạo không gian ngữ nghĩa LSA từ dữ liệu đã có (tạo SVD với

k=50)

Hình 3.2. Giao diện khởi tạo LSA

- Giao diện để nhập đoạn văn để so sánh.

Phần input mang nghĩa là đoạn văn được lựa chọn để so sánh. Các đoạn văn

còn lại được hiển thị ở phía dưới.

Page 51: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

51

Hình 3.3. Giao diện nhập đoạn văn để so sánh

- Giao diện kết quả so sánh

Hình 3.4. Kết quả so sánh

Với dữ liệu thực nghiệm trên, giả định với ngưỡng so sánh 0.7 (tự nhập vào

từ bàn phím) các đoạn văn có độ tương đồng với đoạn văn nhập vào cao hơn

ngưỡng được tô đậm.

Page 52: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

52

4. Đánh giá kết quả thực nghiệm

Trên cơ sở kết quả thực nghiệm, có thể nhận thấy rằng việc giải quyết bài

toán phát hiện nội dung giống nhau trong tổng hợp ý kiến thảo luận tổ là có tính

khả thi. Tuy vậy vẫn còn nhiều vấn đề cần được nghiên cứu để giải quyết như

(1) xác định giá trị ngưỡng sao cho tối ưu, (2) trong trường hợp một vấn đề mới

đưa ra xin ý kiến nếu ma trận ban đầu xây dựng chưa có những tài liệu đề cập

tới vấn đề này độ chính xác không cao, (3) chưa xử lý được các tình huống phủ

định trong tiếng Việt, ví dụ “Đa số nhất trí với phương án được xin ý kiến” với

“Đa số không nhất trí với phương án được xin ý kiến” hay “Chúng ta không

quyết vấn đề này” với “Chúng ta không thể không quyết vấn đề này”.

Page 53: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

53

KẾT LUẬN

Đề tài của luận văn là nghiên cứu các giải pháp tự động phân tích nội dung

giống nhau trong tổng hợp ý kiến thảo luận, góp ý trong Hội nghị. Bài toán cũng

xuất phát từ thực tế trong công tác tổng hợp ý kiến thảo luận tổ ở các Hội nghị

Ban Chấp hành Trung ương. Hiện tại, Văn phòng Trung ương Đảng đã xây dựng

và đưa vào sử dụng phần mềm hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội

nghị Trung ương phục vụ công tác tổng hợp các ý kiến của Trung ương thảo

luận tại tổ về các vấn đề, chủ trương hết sức quan trọng đối với đất nước. Phần

mềm Hỗ trợ tổng hợp ý kiến đã góp phần nâng cao chất lượng, thời gian tổng

hợp, giúp lãnh đạo Văn phòng Trung ương và những cán bộ làm công tác tổng

hợp có thể xem xét, đánh giá lại những kết quả đã tổng hợp, từ đó không ngừng

nâng cao chất lượng biên tập, tổng hợp; đồng thời góp phần nâng cao hiệu quả

hoạt động của các hệ thống công nghệ thông tin trong cơ quan.

Một hạn chế của phần mềm Hỗ trợ tổng hợp ý kiến là chưa pháp hiện nội

dung trùng thừa trong bản tổng hợp. Việc giải quyết trùng thừa này có ý nghĩa

rất quan trọng trong việc hỗ trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị

Trung ương. Nó giúp việc tổng hợp được nhanh chóng, chính xác từ khâu biên

bản chi tiết, biên bản tổng hợp của 1 tổ và biên bản tổng hợp của tất cả các tổ.

Luận văn đã đi vào nghiên cứu các phương pháp tính độ tương đồng của

câu, đề xuất giải pháp nhằm phát hiện các nội dung trùng nhau trong bản tổng

hợp ý kiến góp ý của phần mềm Hỗ trợ tổng hợp ý kiến dựa trên các thuật toán

về xử lý ngôn ngữ tự nhiên. Luận văn đã xây dựng chương trình thực nghiệm

cho kết quả tốt, chứng minh khả năng có thể áp dụng giải pháp vào giải quyết

bài toán thực tế.

Luận văn đưa ra một số định hướng nghiên cứu tiếp tục như sau:

- Tiếp tục nghiên cứu thuật toán tính độ tương đồng câu để tăng độ chính

xác, nghiên cứu để giải quyết bài toán phủ định trong tiếng Việt. Kết hợp các bài

Page 54: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

54

toán tính độ tương đồng và phủ định trong tiếng Việt để có giải pháp tối ưu giải

quyết vấn đề phát hiện nội dung góp ý giống nhau trong quá trình tổng hợp ý

kiến góp ý tại các Hội nghị.

- Trên cơ sở đó, hoàn thiện và nghiên cứu áp dụng giải pháp kỹ thuật phát

hiện nội dung trùng thừa cho phần mềm Hỗ trợ tổng hợp ý kiến, phục vụ chuyên

viên Văn phòng Trung ương Đảng làm nhiệm vụ tổng hợp tại các Hội nghị

Trung ương.

Trong quá trình thực hiện, chắc chắn Luận văn sẽ còn nhiều hạn chế và

thiếu sót. Do vậy, tôi mong nhận được sự góp ý của thầy cô và đồng nghiệp

quan tâm đến đề tài. Những ý kiến quý báu đó sẽ giúp Luận văn của tôi được

hoàn thiện hơn và mang tính thực tiễn cao để có thể áp dụng vào thực tế công

tác tại Văn phòng Trung ương Đảng.

Page 55: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

55

Tài liệu tham khảo

Tiếng Việt

1. Trần Cao Đệ (2011), Chỉ mục ngữ nghĩa tiềm ẩn và ứng dụng, Kỷ yếu

Hội nghị tổng kết 5 năm nghiên cứu khoa học & đào tạo Khoa Công nghệ thông

tin & truyền thông Đại học Cần Thơ, tr 49-56.

2. Đào Quang Minh, Lê Đức Tùng, Lê Đức Hùng, Nguyễn Hữu Đức,

Nguyễn Thanh Thủy ( 2011), Xây dựng dịch vụ so khớp tài liệu điện tử trên lưới

dữ liệu VNGRID, Chuyên san “Các công trình nghiên cứu, phát triển và ứng

dụng Công nghệ Thông tin và Truyền thông”, tr 72 – 81.

3. Phạm Văn Hà (2014), Hệ thống tự động tổng hợp ý kiến góp ý trong

Hội nghị, Luận văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ,

Đại học Quốc gia Hà Nội, tr 44 – 46.

4. Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận

văn Thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia

Hà Nội.

5. https://vi.wikipedia.org/wiki/Wikipedia:Giới_thiệu, năm 2016.

6. Văn phòng Trung ương Đảng (2016), Dự án “Xây dựng phần mềm Hỗ

trợ tổng hợp ý kiến thảo luận tổ tại các hội nghị Trung ương”.

Tiếng Anh

7. David M.Blei, Andrew Y.Ng, Michael I.Jordan (2003), “Latent

Dirichlet Allocation”, Journal of Machine Learning Research 3, pp 993-1022 .

8. Deerwester, S.,Dumais, S.T., Landauer, T.K.,Furnas, G.W. and

Harshman, R.A. (1990), “Indexing by latent semantic analysis”, Journal of

the Society for Information Science, 41(6), pp 391-407.

Page 56: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

56

9. Aminul Islam and Diana Inkpen (2008), “Semantic Text Similarity

Using Corpus-Based Word Similarity and String Similarity”, ACM Transactions

on Knowledge Discovery from Data, Vol. 2, No.2, Article 10.

10. Thomas K.Landauer, Susan T.Dumais (1997), A Solution to Plato’s

Problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and

Representation of Knowledge.

11. Thomas K.Landauer, Danielle S.McNamara Simon Dennis and Walter

Kintsch (2011), Hand book of Latent Semantic Analysis, pp 13-14.

12. Yuhua Li, David McLean, Zuhair A.Bandar, James D.O’Shea, and

Keeley Crockett (2006), “Sentence Similarity Based on Semantic Nets and

Corpus Statistics”, IEEE transactions on knowledge and data engineering, VOL.

18, NO. 8 .

13. Rada Mihalcea and Courtney Corley, Carlo Strapparava, Corpus-

based and Knowledge-based Measures of Text Semantic Similarity.

14. Hien T.Nguyen, Phuc H.Duong, and Vinh T.Vo (2014), “VietNamese

Sentence Similarity Based on Concept”, IFIP International Federation for

Information Processing 2014 .

15. Tu C.Nguyen (2008), Hidden Topic discovery toward classification and

clustering in Vietnamese web documents, Master Thesis, Universtiy of

Engineering and Technology, Vietnam National University, Hanoi.

16. Kenji TAKANO, Makoto NAKAMURA, Yoshiko OYAMA and

Akira SHIMAZU (2010), Semantic Analysis of Paragraphs Consisting of

Multipel Sentences.

17. Nuno Seco, Tony Veale and Jer Hayes (2004), An Intrinic Information

Content Metric for Semantic Similarity in WordNet.

Page 57: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

57

18. Sheetal A.Takale, Sushma S.Nandgaonkar (2010), “Measuring

Semantic Similarity between Words Using Web Documents”, WWW2007:

Track:Semantic Web.

19. Torsten Zesch, Iryna Gurevych and Max Muhlhauser (2007),

Comparing Wikipedia and German WordNet by Evaluating Semantic

Relatedness on Multipe Datasets.

20. TorstenZesch, IrynaGurevych (2007), Analys is of the Wikipedia

Category Graph for NLP Applications.

Page 58: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

58

Page 59: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

59

Page 60: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

60

Page 61: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

61

Page 62: TỰ ĐỘNG PHÂN TÍCH CÁC NỘI DUNG GIỐNG NHAU TRONG HỆ …

62