slider baigiangtiengnoi

78
I. ĐẶC ĐIỂM & C¸C VẤN ĐỀ TRONG XỬ I. ĐẶC ĐIỂM & C¸C VẤN ĐỀ TRONG XỬ Lý TIẾNG Nãi Lý TIẾNG Nãi BÀI GIẢNG XỬ LÝ TIẾNG NÓI Người giảng : Ngô Hoàng Huy. Cơ quan: Phòng Nhận dạng, Viện Công nghệ Thông Tin E-mail: [email protected] ; [email protected] Thời gian : 7h30 sáng thứ 6, từ 15-10-2004

Upload: api-19611223

Post on 13-Jun-2015

228 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Slider BaiGiangTiengNoi

I. ĐẶC ĐIỂM & C¸C VẤN ĐỀ TRONG I. ĐẶC ĐIỂM & C¸C VẤN ĐỀ TRONG XỬ Lý TIẾNG NãiXỬ Lý TIẾNG Nãi

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

Người giảng : Ngô Hoàng Huy.Cơ quan: Phòng Nhận dạng, Viện Công nghệ Thông TinE-mail: [email protected];

[email protected]ời gian : 7h30 sáng thứ 6, từ 15-10-2004

Page 2: Slider BaiGiangTiengNoi

Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc chuyển và đặc biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người. Nó không thể tách riêng khi nhìn vào toàn thể nhân loại, trưng của loài người. Nó không thể tách riêng khi nhìn vào toàn thể nhân loại, và nhờ có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn và nhờ có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hoá, văn minh như ngày nay. Trong quá trình giao tiếp người nói có nhiều câu hoá, văn minh như ngày nay. Trong quá trình giao tiếp người nói có nhiều câu nói. Mỗi câu gồm nhiều từ, ở tiếng Việt, số từ thường được sử dụng vào nói. Mỗi câu gồm nhiều từ, ở tiếng Việt, số từ thường được sử dụng vào khoảng 6700 âm tiếtkhoảng 6700 âm tiết

Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình việc đàm thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình gồm nhiều người, có sự hiểu biết chung và một nghi thức luân phiên nhau nói. gồm nhiều người, có sự hiểu biết chung và một nghi thức luân phiên nhau nói. Những người có điều kiện thể chất và tinh thần bình thường thì rất dễ diễn đạt Những người có điều kiện thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là phương tiện giao tiếp chính trong lúc đàm tiếng nói của mình, do đó tiếng nói là phương tiện giao tiếp chính trong lúc đàm thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ, điệu bộ. Vì có đặc được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ, điệu bộ. Vì có đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao tiếp tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao tiếp nhanh chóng. nhanh chóng.

Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc chuyển và đặc biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người. Nó không thể tách riêng khi nhìn vào toàn thể nhân loại, trưng của loài người. Nó không thể tách riêng khi nhìn vào toàn thể nhân loại, và nhờ có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn và nhờ có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hoá, văn minh như ngày nay. Trong quá trình giao tiếp người nói có nhiều câu hoá, văn minh như ngày nay. Trong quá trình giao tiếp người nói có nhiều câu nói. Mỗi câu gồm nhiều từ, ở tiếng Việt, số từ thường được sử dụng vào nói. Mỗi câu gồm nhiều từ, ở tiếng Việt, số từ thường được sử dụng vào khoảng 6700 âm tiếtkhoảng 6700 âm tiết

Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình việc đàm thoại thể hiện kinh nghiệm của con người. Đàm thoại là một quá trình gồm nhiều người, có sự hiểu biết chung và một nghi thức luân phiên nhau nói. gồm nhiều người, có sự hiểu biết chung và một nghi thức luân phiên nhau nói. Những người có điều kiện thể chất và tinh thần bình thường thì rất dễ diễn đạt Những người có điều kiện thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là phương tiện giao tiếp chính trong lúc đàm tiếng nói của mình, do đó tiếng nói là phương tiện giao tiếp chính trong lúc đàm thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu thoại. Tiếng nói có rất nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ, điệu bộ. Vì có đặc được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ, điệu bộ. Vì có đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao tiếp tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao tiếp nhanh chóng. nhanh chóng.

Page 3: Slider BaiGiangTiengNoi

TỔNG QUAN VỀ TIẾNG NÓITỔNG QUAN VỀ TIẾNG NÓI

NGUỒN GỐC CỦA TIẾNG NÓI:NGUỒN GỐC CỦA TIẾNG NÓI: âm thanh âm thanh của tiếng nói cũng như âm thanh trong thế của tiếng nói cũng như âm thanh trong thế giới tự nhiên, về bản chất đều là sóng âm, giới tự nhiên, về bản chất đều là sóng âm, được lan truyền trong một môi trường nhất được lan truyền trong một môi trường nhất định thường là không khí.định thường là không khí.

CƠ CHẾ TẠO RA TIẾNG NÓI:CƠ CHẾ TẠO RA TIẾNG NÓI: Người nói khi Người nói khi nói sẽ phát ra một tín hiệu dưới dạng sóng áp nói sẽ phát ra một tín hiệu dưới dạng sóng áp suất, đi từ miệng người nói đến tai người suất, đi từ miệng người nói đến tai người nghe. Liên lạc thông tin bằng tiếng nói là nghe. Liên lạc thông tin bằng tiếng nói là truyền thông tin từ não người nói sang não truyền thông tin từ não người nói sang não người nghe.người nghe.

Page 4: Slider BaiGiangTiengNoi

Khi chúng ta nói dây thanh trong hầu bị chấn động , tạo nên Khi chúng ta nói dây thanh trong hầu bị chấn động , tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ - những sóng âm, sóng truyền trong không khí đến màng nhĩ - một màng mỏng rất nhạy cảm của tại ta – làm cho màng nhĩ một màng mỏng rất nhạy cảm của tại ta – làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một độ lớn cảm giác âm khi tần số dao động của sóng đạt đến một độ lớn nhất định.Tai con người chỉ cảm thụ được những dao động có nhất định.Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz. Những dao động tần số từ khoảng 16Hz đến khoảng 20000Hz. Những dao động trong miền tần số này gọi là dao động âm hay âm thanh, và các trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn sóng tương ứng gọi là sóng âm. Những sóng có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, những sóng có tần số lớn hơn 20000 16Hz gọi là sóng hạ âm, những sóng có tần số lớn hơn 20000 Hz gọi là sóng siêu âm, con người không cảm nhận được các Hz gọi là sóng siêu âm, con người không cảm nhận được các sóng này nhưng có khá nhiều loài vật có thể cảm nhận được (ví sóng này nhưng có khá nhiều loài vật có thể cảm nhận được (ví dụ loài dơi có thể nghe được sóng siêu âm). Sóng âm, sóng dụ loài dơi có thể nghe được sóng siêu âm). Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không khí mà còn có siêu âm và hạ âm không chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó sử dụng thể lan truyền tốt ở những môi trường rắn, lỏng, do đó sử dụng rất nhiều trong các thiết bị máy móc hiện nay. rất nhiều trong các thiết bị máy móc hiện nay.

Page 5: Slider BaiGiangTiengNoi

1.1. Khoang mũiKhoang mũi

2.2. Vòm miệng cứngVòm miệng cứng

3.3. LợiLợi

4.4. Vòm miệng mềmVòm miệng mềm

5.5. Đầu lưỡiĐầu lưỡi

6.6. Mặt lưỡiMặt lưỡi

7.7. Lưỡi conLưỡi con

8.8. Cuống lưỡiCuống lưỡi

9.9. Yết hầuYết hầu

10.10. Nắp đóng ở thanh quảnNắp đóng ở thanh quản

11.11. Dây âm giảDây âm giả

12.12. Các dây âmCác dây âm

13.13. Thanh quảnThanh quản

CẤU TẠO CỦA CÁC BỘ PHẬN PHÁT ÂMCẤU TẠO CỦA CÁC BỘ PHẬN PHÁT ÂM

14. Thực quản 15. Khí 14. Thực quản 15. Khí quảnquản

Page 6: Slider BaiGiangTiengNoi

Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản… kết hợp với nhau lưỡi, thanh môn, môi, họng, thanh quản… kết hợp với nhau để tạo thành âm thanh. để tạo thành âm thanh.

Mỗi lần được phát ra, hầu như các âm đều có sự khác Mỗi lần được phát ra, hầu như các âm đều có sự khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng. Người ta chia tiếng nói thành ba theo những đặc tính riêng. Người ta chia tiếng nói thành ba loại cơ bản sau:loại cơ bản sau:

Âm hữu thanh Âm hữu thanh là các âm khi phát ra thì có tính thanh, ví dụ là các âm khi phát ra thì có tính thanh, ví dụ như khi chúng ta nói /a/ hay /o/ chẳng hạn. Thực ra, âm như khi chúng ta nói /a/ hay /o/ chẳng hạn. Thực ra, âm hữu thanh được tạo ra từ việc đẩy không khí qua thanh hữu thanh được tạo ra từ việc đẩy không khí qua thanh môn. Do lực đẩy của luồng không khí các dây thanh chập môn. Do lực đẩy của luồng không khí các dây thanh chập lại, tách ra liên tục, tạo ra sự khép mở của thanh môn, tạo lại, tách ra liên tục, tạo ra sự khép mở của thanh môn, tạo nên dao động. nên dao động.

Âm vô thanhÂm vô thanh là âm khi phát ra một tiếng mà thanh âm là âm khi phát ra một tiếng mà thanh âm không rung hoặc dây thanh rung đôi chút tạo ra giọng như không rung hoặc dây thanh rung đôi chút tạo ra giọng như là giọng thở, ví dụ /h/, /p/, /t/. là giọng thở, ví dụ /h/, /p/, /t/.

Âm bậtÂm bật: Để phát ra âm bật đầu tiên bộ máy phát âm được : Để phát ra âm bật đầu tiên bộ máy phát âm được đóng kín, tạo nên một áp suất, sau đó không khí được giải đóng kín, tạo nên một áp suất, sau đó không khí được giải phóng một cách đột ngột, ví dụ /th/.phóng một cách đột ngột, ví dụ /th/.

Page 7: Slider BaiGiangTiengNoi

Ngữ âm học lịch sử hình thành & phát triểnNgữ âm học lịch sử hình thành & phát triển

Chứng cứ đầu tiên về kiến thức ngữ âm học là các Chứng cứ đầu tiên về kiến thức ngữ âm học là các bản chép tay ghi hình tìm thấy ở Ai Cập, là những chữ bản chép tay ghi hình tìm thấy ở Ai Cập, là những chữ viết tượng hình đầu tiên là cơ sở cho những chữ tượng viết tượng hình đầu tiên là cơ sở cho những chữ tượng thanh sau này. thanh sau này.

–Thế kỷ 16, 17 hệ thống ngữ âm của hầu hết các Thế kỷ 16, 17 hệ thống ngữ âm của hầu hết các ngôn ngữ châu Âu đã được nghiên cứu có hệ thống. ngôn ngữ châu Âu đã được nghiên cứu có hệ thống. Bước nhảy vọt quan trọng của giai đọan này là người ta Bước nhảy vọt quan trọng của giai đọan này là người ta đã sử dụng hệ thống ngữ âm của ngôn ngữ này để so đã sử dụng hệ thống ngữ âm của ngôn ngữ này để so sánh với hệ thống ngữ âm của ngôn ngữ khác. Nhờ vậy sánh với hệ thống ngữ âm của ngôn ngữ khác. Nhờ vậy người ta đã phát hiện ra rằng: tiếng Hy Lạp không phải người ta đã phát hiện ra rằng: tiếng Hy Lạp không phải là ngôn ngữ khoa học cổ nhất như vẫn quan niệm lúc là ngôn ngữ khoa học cổ nhất như vẫn quan niệm lúc bấy giờ mà chính là tiếng Ấn Độ cổ (Sanscrit). Việc chính bấy giờ mà chính là tiếng Ấn Độ cổ (Sanscrit). Việc chính thức ra đời của nghành ngữ âm học là vào cuối thế kỷ 18 thức ra đời của nghành ngữ âm học là vào cuối thế kỷ 18 được đánh dấu bởi hai nhà khoa học: được đánh dấu bởi hai nhà khoa học:

–Hellwag, C.F (1781) lần đầu tiên công bố tam giác Hellwag, C.F (1781) lần đầu tiên công bố tam giác nguyên âmnguyên âm

–Kempelen, W.v (1791) chế tạo ra chiếc máy nói.Kempelen, W.v (1791) chế tạo ra chiếc máy nói.

Page 8: Slider BaiGiangTiengNoi

Định nghĩa (Mayers Laxikoniverlag, 1997). Định nghĩa (Mayers Laxikoniverlag, 1997). Ngữ âm học là một bộ môn của ngôn ngữ học mà đối Ngữ âm học là một bộ môn của ngôn ngữ học mà đối tượng nghiên cứu của nó là âm thanh ngôn ngữ, các tượng nghiên cứu của nó là âm thanh ngôn ngữ, các loại âm thanh; việc hình thành và sử dụng chúng trong loại âm thanh; việc hình thành và sử dụng chúng trong giao tiếp.giao tiếp.Tiếng nói thường được mô tả cho các lớp đối tượng Tiếng nói thường được mô tả cho các lớp đối tượng cho các chuyên nghành nghiên cứu khác nhau.cho các chuyên nghành nghiên cứu khác nhau.Chuyên nghành ngữ âm nghiên cứu quá trình cấu âm, Chuyên nghành ngữ âm nghiên cứu quá trình cấu âm, các đặc trưng khu biệt của các âm trong một ngôn ngữ.các đặc trưng khu biệt của các âm trong một ngôn ngữ.Một quan điểm về đối tượng nghiên cứu của ngữ âm Một quan điểm về đối tượng nghiên cứu của ngữ âm học dựa trên cơ sở lý thuyết ba giai đoạn của quá trình học dựa trên cơ sở lý thuyết ba giai đoạn của quá trình giaotiếp:giaotiếp:•Tạo sinh tín hiệu ngôn ngữ (Production)Tạo sinh tín hiệu ngôn ngữ (Production)•Truyền tín hiệu ngôn ngữ (Transmission)Truyền tín hiệu ngôn ngữ (Transmission)•Tiếp nhận tín hiệu ngôn ngữ (Perception)Tiếp nhận tín hiệu ngôn ngữ (Perception)Các phương pháp ngữ âm học thực nghiệm phát triển Các phương pháp ngữ âm học thực nghiệm phát triển gắn liền với sự phát triển khoa học kỹ thuật, từ các gắn liền với sự phát triển khoa học kỹ thuật, từ các phương pháp cơ học trước đây đến điện tử và hiện nay phương pháp cơ học trước đây đến điện tử và hiện nay là tin học.là tin học.

Page 9: Slider BaiGiangTiengNoi

CÁC PHƯƠNG PHÁP NGHIÊN CỨU XỬ LÝ TIẾNG NÓI

Chuyên nghành xử lý tiếng nói quan tâm tín hiệu Chuyên nghành xử lý tiếng nói quan tâm tín hiệu âm thanh của tiếng nóiâm thanh của tiếng nói Phương pháp nghiên cứu là kết hợp của nhiều lĩnh Phương pháp nghiên cứu là kết hợp của nhiều lĩnh vực của Tin học khác nhau như:vực của Tin học khác nhau như:Xử lý tín hiệu số (biểu diễn, mã hóa tín hiệu...), vi Xử lý tín hiệu số (biểu diễn, mã hóa tín hiệu...), vi xử lý...xử lý...Ngữ âm học thực nghiệmNgữ âm học thực nghiệmToán (giải tích số, thống kê, ma trận, mô hình tính Toán (giải tích số, thống kê, ma trận, mô hình tính tóan như mạng Neural, Giải thuật di truyền, ...)tóan như mạng Neural, Giải thuật di truyền, ...)Xử lý ngôn ngữXử lý ngôn ngữ

Page 10: Slider BaiGiangTiengNoi

CÁC VẤN ĐỀ CƠ BẢNCÁC VẤN ĐỀ CƠ BẢN

Tổng hợp tiếng nóiTổng hợp tiếng nói Nhận dạng tiếng nóiNhận dạng tiếng nói Nhận dạng người nóiNhận dạng người nói Mã hóa tiếng nóiMã hóa tiếng nói Xử lý nhiễuXử lý nhiễu Biến đổi tiếng nóiBiến đổi tiếng nói

Page 11: Slider BaiGiangTiengNoi

TỔNG HỢP TIẾNG NÓITỔNG HỢP TIẾNG NÓI Tạo tiếng nói bằng máy là một ước mơ của loài người và Tạo tiếng nói bằng máy là một ước mơ của loài người và

là mục tiêu thách thức các nhà khoa học trên thế giới nhiều là mục tiêu thách thức các nhà khoa học trên thế giới nhiều thế kỷ qua. thế kỷ qua.

Máy nói bằng cơ khí đầu tiên do Wolfgang Von Kempelen Máy nói bằng cơ khí đầu tiên do Wolfgang Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể phát ra được một vài âm tố. đã có thể phát ra được một vài âm tố.

Ở đầu thế kỷ này, vào năm 1939, máy VODER của nhà Ở đầu thế kỷ này, vào năm 1939, máy VODER của nhà khoa học Dudley, phòng thí nghiệm AT&T BELL LABS, đã khoa học Dudley, phòng thí nghiệm AT&T BELL LABS, đã thành công trong việc mô hình hoá cộng hưởng của ống thành công trong việc mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử. thanh bằng linh kiện điện tử.

Cùng với sự phát triển như vũ bão của khoa học và công Cùng với sự phát triển như vũ bão của khoa học và công nghệ ở thập kỷ 80 và 90, kỹ thuật tổng hợp tiếng nói đã có nghệ ở thập kỷ 80 và 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất quan trong có sự đóng góp rất những bước phát triển rất quan trong có sự đóng góp rất lớn của máy tính và xử lý tín hiệu số. lớn của máy tính và xử lý tín hiệu số.

Page 12: Slider BaiGiangTiengNoi

Sơ đồ tổng quát hệ thống Tổng hợp tiếng nói

Page 13: Slider BaiGiangTiengNoi

NHẬN DẠNG TIẾNG NÓINHẬN DẠNG TIẾNG NÓI

Page 14: Slider BaiGiangTiengNoi

D÷ liÖu huÊnluyÖn tiÕng nãi

TiÕng nãi

®Çu vµo

HuÊn luyÖn

NhËn d¹ng

V¨n b¶n

C¸c vec t¬

TiÒn xö lý vµ trÝch chän ®Æc

tr ng

M« h×nh

ng÷ ©m M« h×nh

ng«n ng÷

LuËt ©m vÞ M« h×nh

ng÷ ©m

Tõ ®iÓn & v¨n pham

TiÒn xö lý vµtrÝch chän ®Æc tr ng

Nghiªn cøu

nhËn d¹ng D·y tõ

C¸c vÐc t¬

®Æc tr ng

®Æc tr ng

S¬ ®å nhËn d¹ng tæng qu¸t cho mét ng«n ng÷ bÊt kú

Page 15: Slider BaiGiangTiengNoi

NHẬN DẠNG NGƯỜI NÓINHẬN DẠNG NGƯỜI NÓI

Page 16: Slider BaiGiangTiengNoi

HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI (ASI)HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI (ASI)

TrÝch chän®Æc tr ng

M« h×nhng êi 1

M« h×nhng êi 2

M« h×nhng êi N-1

M« h×nhng êi N

Bé chän

Ng ì ng

TiÕng nãi Ng êi nãix̧ c ®Þnh ® î c

Vector®Æc tr ng

Hệ thống định dang người nói tự động:Hệ thống định dang người nói tự động:

Xác định giọng nói đưa vào kiểm tra là giọng nào trong tập Xác định giọng nói đưa vào kiểm tra là giọng nào trong tập

N giọng đã huấn luyện và được lưu trong cơ sở dữ liệu. Sử dụng N giọng đã huấn luyện và được lưu trong cơ sở dữ liệu. Sử dụng

hình thức so sánh để tìm ra giọng so khớp nhất.hình thức so sánh để tìm ra giọng so khớp nhất.

Page 17: Slider BaiGiangTiengNoi

II. C¬ chÕ t¹o tiÕng nãi & thu nhËn ©mII. C¬ chÕ t¹o tiÕng nãi & thu nhËn ©m

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

Người giảng : Ngô Hoàng Huy.Cơ quan: Phòng Nhận dạng, Viện Công nghệ Thông TinE-mail: [email protected];

[email protected]ời gian : 13h, 27-10-2004

Page 18: Slider BaiGiangTiengNoi

Hệ thống cấu âm của con người được mô tả gồm các bộ phận thuộc ba nhóm chính: phổi, thanh quản và vùng thanh âm.Hệ thống cấu âm của con người được mô tả gồm các bộ phận thuộc ba nhóm chính: phổi, thanh quản và vùng thanh âm.

2.1.1. Phổi (lung)2.1.1. Phổi (lung) ĐâyĐây là nguồn cung cấp năng lượng chính cho sự phát âm. Khi thể là nguồn cung cấp năng lượng chính cho sự phát âm. Khi thể

tích không khí trong phổi bị nén, áp suất không khí tăng mạnh tạo tích không khí trong phổi bị nén, áp suất không khí tăng mạnh tạo ra một luồng hơi xuyên suốt họng.ra một luồng hơi xuyên suốt họng.

Từ phổi, luồng không khí đi ra, qua thanh quản và vùng thanh âm Từ phổi, luồng không khí đi ra, qua thanh quản và vùng thanh âm trước khi thoát ra khỏi miệng dưới dạng những thay đổi về áp suất, trước khi thoát ra khỏi miệng dưới dạng những thay đổi về áp suất, tạo nên tín hiệu tiếng nói. Nằm ở trong lồng ngực, phổi có nhiệm vụ tạo nên tín hiệu tiếng nói. Nằm ở trong lồng ngực, phổi có nhiệm vụ chính là hô hấp, hít vào thở ra một thể tích không khí (khoảng 0,5 chính là hô hấp, hít vào thở ra một thể tích không khí (khoảng 0,5 lít).lít).

Biên độ của âm thanh có liên hệ gián tiếp với tốc độ của luồng Biên độ của âm thanh có liên hệ gián tiếp với tốc độ của luồng không khí. Độ sai khác (còn gọi là dung tích sống) giữa lúc phổi không khí. Độ sai khác (còn gọi là dung tích sống) giữa lúc phổi phồng ra nhất và lúc phổi xẹp nhất vào khoảng 5 lít. Tiếng nói bình phồng ra nhất và lúc phổi xẹp nhất vào khoảng 5 lít. Tiếng nói bình thường dùng đến nửa dung tích sống, trong khi đó tiếng nói rất lớn thường dùng đến nửa dung tích sống, trong khi đó tiếng nói rất lớn dùng khoảng 80% dung tích sống.dùng khoảng 80% dung tích sống.

Tiếng nói trong lúc đàm thoại cần một áp suất phổi khoảng 10cm Tiếng nói trong lúc đàm thoại cần một áp suất phổi khoảng 10cm nước, sai kém với lúc thở bình thường khoảng 1-2cm nước. Ngay nước, sai kém với lúc thở bình thường khoảng 1-2cm nước. Ngay cả âm thanh tiếng nói rất lớn, áp suất tối đa cũng khoảng 20cm cả âm thanh tiếng nói rất lớn, áp suất tối đa cũng khoảng 20cm nước, áp suất này rất nhỏ so với áp suất khí quyển (976cm nước). nước, áp suất này rất nhỏ so với áp suất khí quyển (976cm nước). Trong khi áp suất không khí trong phổi vẫn giữ tương đối ổn định Trong khi áp suất không khí trong phổi vẫn giữ tương đối ổn định trong quá trình phát âm thì luồng không khí thường thay đổi đáng trong quá trình phát âm thì luồng không khí thường thay đổi đáng kể do những sự tắc nghẽn biến đổi theo thời gian (lúc rộng lúc hẹp) kể do những sự tắc nghẽn biến đổi theo thời gian (lúc rộng lúc hẹp) trong thanh quản và vùng thanh âm.trong thanh quản và vùng thanh âm.

2.1. HỆ THỐNG CẤU ÂM

Page 19: Slider BaiGiangTiengNoi

2.1.2. Thanh quản (larynx) 2.1.2. Thanh quản (larynx) Thanh quảnThanh quản nằm phía trên khí quản (trachea) có các sụn nằm phía trên khí quản (trachea) có các sụn

được chuyên biệt hóa cao. Sụn giáp (thyroid cartilage) nhô được chuyên biệt hóa cao. Sụn giáp (thyroid cartilage) nhô ra phía trước cổ, hở ở phía sau. Bù lại, phía sau được ra phía trước cổ, hở ở phía sau. Bù lại, phía sau được chắn bằng sụn thanh quản (crycoid cartilage) vừa đủ che chắn bằng sụn thanh quản (crycoid cartilage) vừa đủ che kín tạo thành một cái hộp, trong đó có hai sụn chóp kín tạo thành một cái hộp, trong đó có hai sụn chóp (aryternoid). Tất cả các sụn này dịch chuyển luân phiên (aryternoid). Tất cả các sụn này dịch chuyển luân phiên nhau điều khiển và phản ánh sự rung động của dây thanh. nhau điều khiển và phản ánh sự rung động của dây thanh.

Mô hình hoạt động của dây thanh

Page 20: Slider BaiGiangTiengNoi

2.1.3. Dây thanh (vocal cords)2.1.3. Dây thanh (vocal cords)

LLà hai cơ nằm sóng nhau theo chiều dọc của thanh hầu có chức năng à hai cơ nằm sóng nhau theo chiều dọc của thanh hầu có chức năng biến luồng hơi thành sóng âm. Ở mỗi người, dây thanh có độ dày mỏng, biến luồng hơi thành sóng âm. Ở mỗi người, dây thanh có độ dày mỏng, dài ngắn khác nhau. Tùy vào kích thước và độ căng của dây thanh mà dài ngắn khác nhau. Tùy vào kích thước và độ căng của dây thanh mà âm được tạo ra cao hay thấp. Dây thanh của trẻ con thường mảnh và âm được tạo ra cao hay thấp. Dây thanh của trẻ con thường mảnh và căng hơn của người lớn nên giọng trẻ con thường cao hơn hẳn. Khi hai căng hơn của người lớn nên giọng trẻ con thường cao hơn hẳn. Khi hai dây thanh tách rời nhau thì sự thở diễn ra bình thường. Khe hở giữa hai dây thanh tách rời nhau thì sự thở diễn ra bình thường. Khe hở giữa hai dây thanh được gọi là thanh môn (glottal).dây thanh được gọi là thanh môn (glottal).

Mô hình lát cắt dọc của khe thanh

Page 21: Slider BaiGiangTiengNoi

Việc hô hấp bình thường ít khi tạo ra âm thanh có thể nghe được vì Việc hô hấp bình thường ít khi tạo ra âm thanh có thể nghe được vì không khí được đẩy ra từ phổi đi thông suốt qua thanh quản và không khí được đẩy ra từ phổi đi thông suốt qua thanh quản và vùng thanh âm. Âm thanh xuất hiện khi đường đi của luồng không vùng thanh âm. Âm thanh xuất hiện khi đường đi của luồng không khí bị tắc nghẽn một phần hay hoàn toàn, làm gián đoạn luồng khí bị tắc nghẽn một phần hay hoàn toàn, làm gián đoạn luồng không khí, tạo ra tiếng hỗn loạn hay các xung đột không khí.không khí, tạo ra tiếng hỗn loạn hay các xung đột không khí.

Nguồn gốc sinh ra hầu hết tiếng nói là ở thanh quản, nơi có các Nguồn gốc sinh ra hầu hết tiếng nói là ở thanh quản, nơi có các dây thanh âm (cấu trúc đàn hồi của gân, cơ, niêm mạc) có thể làm dây thanh âm (cấu trúc đàn hồi của gân, cơ, niêm mạc) có thể làm tắc nghẽn từng phần hay hoàn toàn luồng không khí đi ra từ phổi. tắc nghẽn từng phần hay hoàn toàn luồng không khí đi ra từ phổi. Ở đàn ông, dây thanh âm dài khoản 15 mm và khoảng 13 mm ở Ở đàn ông, dây thanh âm dài khoản 15 mm và khoảng 13 mm ở đàn bà. Nhờ vào các co thắt cơ khác nhau, các dây thanh âm có đàn bà. Nhờ vào các co thắt cơ khác nhau, các dây thanh âm có thể thay đổi chiều dài và độ dày, định ra những hình dạng khác thể thay đổi chiều dài và độ dày, định ra những hình dạng khác nhau. Đầu phía trước của dây thanh âm bám vào sụn giáp, còn nhau. Đầu phía trước của dây thanh âm bám vào sụn giáp, còn đầu phía sau gắn với hai sụn phễu riêng biệt, có thể đu đưa hay đầu phía sau gắn với hai sụn phễu riêng biệt, có thể đu đưa hay trượt khi đóng hay mở dây thanh âm.trượt khi đóng hay mở dây thanh âm.

Nếu như vùng thanh âm và thanh môn đóng hoàn toàn, luồng Nếu như vùng thanh âm và thanh môn đóng hoàn toàn, luồng không khí bị ngưng lại và không có âm thanh phát ra. Sự ngắt không khí bị ngưng lại và không có âm thanh phát ra. Sự ngắt luồng không khí như vậy trong 20-150 ms sinh ra lớp âm thanh gọi luồng không khí như vậy trong 20-150 ms sinh ra lớp âm thanh gọi là âm thanh tắc nghẽn. Cơ ngực tiếp tục đẩy không khí, áp suất là âm thanh tắc nghẽn. Cơ ngực tiếp tục đẩy không khí, áp suất được hình thành sau khi thanh môn đóng cho đến khi nó mở ra.được hình thành sau khi thanh môn đóng cho đến khi nó mở ra.

2.2. PHÁT SINH TIẾNG NÓI2.2. PHÁT SINH TIẾNG NÓI

Page 22: Slider BaiGiangTiengNoi

2.3. ÂM HỮU THANH & VÔ THANH2.3. ÂM HỮU THANH & VÔ THANH

2.3.1. Âm hữu thanh2.3.1. Âm hữu thanh (voiced): (voiced):Âm thanh này tạo ra do sự kích thích vùng thanh âm. Trong âm hữu Âm thanh này tạo ra do sự kích thích vùng thanh âm. Trong âm hữu thanh, không khí đi ra khỏi phổi bị ngắt một cách nhanh chóng bởi sự thanh, không khí đi ra khỏi phổi bị ngắt một cách nhanh chóng bởi sự đóng mở tuần hoàn của những dây thanh âm. Tốc độ rung động được đóng mở tuần hoàn của những dây thanh âm. Tốc độ rung động được gọi là gọi là tần số cơ bảntần số cơ bản. Chu kỳ cơ bản giữa những lần đóng dây âm . Chu kỳ cơ bản giữa những lần đóng dây âm thanh liên tiếp, có giá trị trung bình thay đổi theo kích thước dây thanh thanh liên tiếp, có giá trị trung bình thay đổi theo kích thước dây thanh âm của người nói (trẻ con có chu kỳ ngắn, đàn ông có chu kỳ dài).âm của người nói (trẻ con có chu kỳ ngắn, đàn ông có chu kỳ dài).

2.3.2. Âm vô thanh2.3.2. Âm vô thanh (unvoiced): (unvoiced):Tạo ra do sự hỗn loạn khi luồng không khí đi qua chỗ hẹp. Âm thanh Tạo ra do sự hỗn loạn khi luồng không khí đi qua chỗ hẹp. Âm thanh loại này không tuần hoàn, vì dòng phần tử không khí dịch chuyển một loại này không tuần hoàn, vì dòng phần tử không khí dịch chuyển một cách ngẫu nhiên, dạng sóng thay đổi rất nhiều từ thời điểm này đến cách ngẫu nhiên, dạng sóng thay đổi rất nhiều từ thời điểm này đến thời điểm khác. Về bản chất, âm thanh loại này giống như âm thanh thời điểm khác. Về bản chất, âm thanh loại này giống như âm thanh phát ra từ dòng suối róc rách, tiếng gió thổi qua lá cây hay tiếng sóng phát ra từ dòng suối róc rách, tiếng gió thổi qua lá cây hay tiếng sóng vỗ vào bờ.vỗ vào bờ.

2.3.3.Vùng thanh âm2.3.3.Vùng thanh âm (vocal tract): (vocal tract):Gồm các bộ phận cấu âm và phát âm ở sau thanh quản. Thường, Gồm các bộ phận cấu âm và phát âm ở sau thanh quản. Thường, vùng thanh âm được chia làm ba khoang là yết hầu, mũi và miệng. Độ vùng thanh âm được chia làm ba khoang là yết hầu, mũi và miệng. Độ dài trung bình của vùng thanh âm được tính từ thanh môn đến môi là dài trung bình của vùng thanh âm được tính từ thanh môn đến môi là 14,1 cm đối với phụ nữ và 16,9 cm đối với nam giới. Vòm miệng mềm 14,1 cm đối với phụ nữ và 16,9 cm đối với nam giới. Vòm miệng mềm điều khiển luồng không khí từ yết hầu đến miệng và khoang mũi. Từ điều khiển luồng không khí từ yết hầu đến miệng và khoang mũi. Từ góc nhìn kỹ thuật ta có thể xem như vùng thanh âm là một ống dẫn âm góc nhìn kỹ thuật ta có thể xem như vùng thanh âm là một ống dẫn âm giữa thanh môn và miệnggiữa thanh môn và miệng. .

Page 23: Slider BaiGiangTiengNoi

Khoang miệngKhoang miệng là bộ phận nổi bật rất dễ nhận thấy trong Vùng thanh âm, kích thước là bộ phận nổi bật rất dễ nhận thấy trong Vùng thanh âm, kích thước và hình dáng của nó thay đổi theo sự chuyển động của lưỡi, môi, răng và hình dáng của nó thay đổi theo sự chuyển động của lưỡi, môi, răng và vòm miệng mềm. Lưỡi có độ cao tự do trong khoang miệng, nó còn và vòm miệng mềm. Lưỡi có độ cao tự do trong khoang miệng, nó còn có thể thay đổi hình dạng bằng cách lật nghiêng hoặc uốn cong. Môi có thể thay đổi hình dạng bằng cách lật nghiêng hoặc uốn cong. Môi có nhiệm vụ thay đổi hình dạng, kích cỡ của miệng khi phát âm.có nhiệm vụ thay đổi hình dạng, kích cỡ của miệng khi phát âm.

Khoang mũiKhoang mũikhông giống như khoang miệng, khoang mũi có hình dáng và kích không giống như khoang miệng, khoang mũi có hình dáng và kích thước cố định, luồng không khí thoát ra từ khoang mũi có thể tạo ra thước cố định, luồng không khí thoát ra từ khoang mũi có thể tạo ra những âm mũi ví dụ như: “streak” và “listen’ (Tiếng Anh).những âm mũi ví dụ như: “streak” và “listen’ (Tiếng Anh).

Phổi cung cấp luồng không khí và nguồn áp suất cho tiếng nói, và Phổi cung cấp luồng không khí và nguồn áp suất cho tiếng nói, và vùng thanh âm thường chỉ uốn nắn, điều chỉnh luồng không khí để nó vùng thanh âm thường chỉ uốn nắn, điều chỉnh luồng không khí để nó tạo ra âm thanh, nhưng vùng thanh âm lại là thành phần quan trọng tạo ra âm thanh, nhưng vùng thanh âm lại là thành phần quan trọng nhất trong tiến trình tạo ra tiếng nói. Nó có thể thay đổi việc phân phối nhất trong tiến trình tạo ra tiếng nói. Nó có thể thay đổi việc phân phối năng lượng phổ trong dạng sóng âm thanh ở thanh môn, và có thể năng lượng phổ trong dạng sóng âm thanh ở thanh môn, và có thể góp phần vào việc tạo ra những âm thanh tắc nghẽn. Ta phân biệt góp phần vào việc tạo ra những âm thanh tắc nghẽn. Ta phân biệt được các âm thanh khác nhau chủ yếu là nhờ tính tuần hoàn (hữu/vô được các âm thanh khác nhau chủ yếu là nhờ tính tuần hoàn (hữu/vô thanh), hình dạng phổ và thời gian.thanh), hình dạng phổ và thời gian.

Các Các khoang cộng hưởngkhoang cộng hưởng chính của vùng thanh âm (nhất là khoang chính của vùng thanh âm (nhất là khoang miệng) có thể thay đổi rất linh hoạt nhờ vào sự đóng hay mở vòm miệng) có thể thay đổi rất linh hoạt nhờ vào sự đóng hay mở vòm miệng (ngạc mềm) để ngăn hoặc nối khoang mũi với yết hầu. Sự thay miệng (ngạc mềm) để ngăn hoặc nối khoang mũi với yết hầu. Sự thay đổi hình dạng của các khoang cộng hưởng làm biến đổi nguồn âm đổi hình dạng của các khoang cộng hưởng làm biến đổi nguồn âm thanh được tạo ra từ thanh hầu, biến chúng trở thành âm thanh tiếng thanh được tạo ra từ thanh hầu, biến chúng trở thành âm thanh tiếng nói con người. nói con người.

Page 24: Slider BaiGiangTiengNoi

2.4. HỆ THỐNG NGỮ ÂM2.4. HỆ THỐNG NGỮ ÂM

2.4.1. Nguyên âm2.4.1. Nguyên âm Nguyên âm là những âm được tạo ra từ luồng hơi đi lên và thoát ra ngoàiNguyên âm là những âm được tạo ra từ luồng hơi đi lên và thoát ra ngoài

một cách tự do, không bị cản trở do đó mà có một âm hưởng “êm ái”, “dễmột cách tự do, không bị cản trở do đó mà có một âm hưởng “êm ái”, “dễ

nghe”. Đặc trưng âm học của nguyên âm là có tần số xác định, có đườngnghe”. Đặc trưng âm học của nguyên âm là có tần số xác định, có đường

cong biểu diễn tuần hoàn. cong biểu diễn tuần hoàn. Sự khác biệt của nguyên âm này với nguyên âm khác là sự khác biệt về Sự khác biệt của nguyên âm này với nguyên âm khác là sự khác biệt về

âm sắc của cùng một tiếng thanh. Tức là sự khác biệt của các nguyên âm âm sắc của cùng một tiếng thanh. Tức là sự khác biệt của các nguyên âm

phụ thuộc vào các nhóm họa âm khác nhau, được tăng cường do nhận phụ thuộc vào các nhóm họa âm khác nhau, được tăng cường do nhận

được sự cộng hưởng khác nhau của các khoang trên thanh hầu.được sự cộng hưởng khác nhau của các khoang trên thanh hầu.

2.4.2. Phụ âm 2.4.2. Phụ âm Phụ âm là âm thanh tạo ra do sự cản trở của không khí trên lối thoát của Phụ âm là âm thanh tạo ra do sự cản trở của không khí trên lối thoát của

ống dẫn âm. ống dẫn âm. Các phụ âm sẽ được xác định theo hai tiêu chuẩn: xác định dựa vào cách Các phụ âm sẽ được xác định theo hai tiêu chuẩn: xác định dựa vào cách

cản trở âm thanh thoát ra của ống dẫn âm còn gọi là phương thức cấu âm, cản trở âm thanh thoát ra của ống dẫn âm còn gọi là phương thức cấu âm, xác định dựa vào vị trí xảy ra quá trình cản trở âm còn gọi là vị trí cấu âm.xác định dựa vào vị trí xảy ra quá trình cản trở âm còn gọi là vị trí cấu âm.

Page 25: Slider BaiGiangTiengNoi

2.4.3. Bảng phụ âm tiếng Việt:2.4.3. Bảng phụ âm tiếng Việt: Dựa vào phương thức cấu âm, người ta chia phụ âm làm 3 loại chính: Dựa vào phương thức cấu âm, người ta chia phụ âm làm 3 loại chính:

âm tắc, xát và rung. Phụ âm tiếng Việt gồm có 22 âm và người ta có thể âm tắc, xát và rung. Phụ âm tiếng Việt gồm có 22 âm và người ta có thể chia theo bảng sau:chia theo bảng sau:

Bảng phân loại phụ âm

Page 26: Slider BaiGiangTiengNoi

Âm tắcÂm tắc

Âm phát ra khi lưỡi con nâng lên bịt kín lối thông lên mũi và không khí Âm phát ra khi lưỡi con nâng lên bịt kín lối thông lên mũi và không khí bị cản trở hoàn toàn do những bộ phận khác nhau ở miệng, để thoát bị cản trở hoàn toàn do những bộ phận khác nhau ở miệng, để thoát ra, không khí sẽ phá vỡ sự cản trở ấy tạo ra âm thanh như tiếng nổra, không khí sẽ phá vỡ sự cản trở ấy tạo ra âm thanh như tiếng nổ

Âm xátÂm xát

Âm thanh được tạo ra khi không khí đi qua một khe hẹp, không khí bị Âm thanh được tạo ra khi không khí đi qua một khe hẹp, không khí bị nén mạnh khi qua một bờ sắc như răngnén mạnh khi qua một bờ sắc như răng

Âm mũiÂm mũi

Khi phát âm âm mũi, lưỡi gà hạ xuống, không khí không qua miệng mà Khi phát âm âm mũi, lưỡi gà hạ xuống, không khí không qua miệng mà sẽ trở ra bằng đường mũi. Dây thanh chấn động, không khí ra tự do sẽ trở ra bằng đường mũi. Dây thanh chấn động, không khí ra tự do gây ra tiếng động nhỏ hơn vì vậy những âm này thuộc nhóm âm vanggây ra tiếng động nhỏ hơn vì vậy những âm này thuộc nhóm âm vang

Âm rungÂm rung

Không khí đi ra từ phổi bị chặn lại ở một vị trí nào đó như đầu lưỡi Không khí đi ra từ phổi bị chặn lại ở một vị trí nào đó như đầu lưỡi chẳng hạn, nó vượt qua chướng ngại rồi lại bị chặn cứ như thế diễn ra chẳng hạn, nó vượt qua chướng ngại rồi lại bị chặn cứ như thế diễn ra liên tiếp và có cảm giác như đầu lưỡi đang rung liên tiếp và có cảm giác như đầu lưỡi đang rung

Page 27: Slider BaiGiangTiengNoi

III. thu nhËn tiÕng nãiIII. thu nhËn tiÕng nãi

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

Người giảng : Ngô Hoàng Huy.Cơ quan: Phòng Nhận dạng, Viện Công nghệ Thông TinE-mail: [email protected];

[email protected]ời gian : 13h, 27-10-2004

Page 28: Slider BaiGiangTiengNoi

3.1. ĐƠN VỊ TIẾNG NÓI3.1. ĐƠN VỊ TIẾNG NÓI

3.1.1.Tần số lấy mẫu3.1.1.Tần số lấy mẫuQuá trình lấy mẫu tạo ra tín hiệu rời rạc hoặc tín hiệu số từ tín hiệu tínQuá trình lấy mẫu tạo ra tín hiệu rời rạc hoặc tín hiệu số từ tín hiệu tínhiệu tương tự. Tần số lấy mẫu là số lần lấy mẫu được tính trong một đơn hiệu tương tự. Tần số lấy mẫu là số lần lấy mẫu được tính trong một đơn vị thời gian, thông thường là giây. Tần số lấy mẫu ký hiệu là Fs.vị thời gian, thông thường là giây. Tần số lấy mẫu ký hiệu là Fs.Khoảng thời gian mà quá trình lấy mẫu được lặp lại gọi là chu kỳ lấy mẫu. Khoảng thời gian mà quá trình lấy mẫu được lặp lại gọi là chu kỳ lấy mẫu. Ví dụ: Fs = 11025Hz, 1s thu được 11025 mẫuVí dụ: Fs = 11025Hz, 1s thu được 11025 mẫu

1ms thu được 11025/1000 1ms thu được 11025/1000 11 mẫu. 11 mẫu.Số bit lưu một mẫu có thể là 8 hoặc 16 bit.Số bit lưu một mẫu có thể là 8 hoặc 16 bit.8 bit/ 1 mẫu: Ngưỡng lặng tuyệt đối là 1288 bit/ 1 mẫu: Ngưỡng lặng tuyệt đối là 12816 bit/ 1 mẫu: Ngưỡng lặng tuyệt đối là 016 bit/ 1 mẫu: Ngưỡng lặng tuyệt đối là 0

Page 29: Slider BaiGiangTiengNoi

3.1.2.Nhiễu3.1.2.Nhiễu Nhiễu đối với hệ thống là loại âm thanh không phải tiếng nói sinh ra Nhiễu đối với hệ thống là loại âm thanh không phải tiếng nói sinh ra

trong môi trường xung quanh ta. Ngay cả bộ phát âm của con người trong môi trường xung quanh ta. Ngay cả bộ phát âm của con người cũng sinh ra nhiễu, chẳng hạn như tiếng thở, tiếng bật lưỡi, tiếng chép cũng sinh ra nhiễu, chẳng hạn như tiếng thở, tiếng bật lưỡi, tiếng chép miệng cả khi môi chạm vào micro… Không dễ gì có thể lọc được mọi miệng cả khi môi chạm vào micro… Không dễ gì có thể lọc được mọi thứ nhiễu, ta chỉtìm cách tối thiểu hoá chúng để có thể nâng cao chất thứ nhiễu, ta chỉtìm cách tối thiểu hoá chúng để có thể nâng cao chất lượnglượng

Độ nhiễu của tín hiệu được xác định thông qua năng lượng đo được Độ nhiễu của tín hiệu được xác định thông qua năng lượng đo được của tín hiệu với đơn vị dB:của tín hiệu với đơn vị dB:

ns~

)(

~log10

0

2

0

2

10 dB

ss

s

EN

nnn

N

nn

E thì tín hiệu thu được là tín hiệu sạch, không có nhiễu.

Page 30: Slider BaiGiangTiengNoi

3.1.3.Tần số cơ bản (3.1.3.Tần số cơ bản (F0) Trong tiếng nói, tần số cơ bản là đáp ứng của sự rung động các dây

thanh âm Tần số cơ bản có giá trị phụ thuộc vào tần số lấy mẫu và khoảng cách

a, là khoảng cách giữa hai đỉnh của các sóng âm tuần hoàn. Đơn vị của tần số là Hertz, ký hiệu là Hz. Mỗi Hz bằng 1 dao động/1s.

Và 1 KHz sẽ bằng 1000 Hz

Đường F0 của âm tiết /ma/

Page 31: Slider BaiGiangTiengNoi

3.1.4.Formant3.1.4.Formant Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong

ống dẫn thanh, đặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải ống dẫn thanh, đặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải tần như thế có một tần số được tăng cường hơn cả gọi là đỉnh formant.tần như thế có một tần số được tăng cường hơn cả gọi là đỉnh formant.

Một nguyên âm do một người phát ra có nhiều formant:Một nguyên âm do một người phát ra có nhiều formant:F1: ứng với cộng hưởng vùng yết hầuF1: ứng với cộng hưởng vùng yết hầuF2: ứng với cộng hưởng khoang miệngF2: ứng với cộng hưởng khoang miệng

Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác Khi ta nói, các âm mũi sẽ có sự xuất hiện của formant F3, các formant khác F4, F5,…liên quan đến các đặc trưng giọng nói riêng của mỗi cá nhân. Mỗi F4, F5,…liên quan đến các đặc trưng giọng nói riêng của mỗi cá nhân. Mỗi lần môi, lưỡi, hàm ở những vị trí khác nhau là một lần hộp cộng hưởng lần môi, lưỡi, hàm ở những vị trí khác nhau là một lần hộp cộng hưởng miệng và yết hầu thay đổi hình dáng, thể tích, lối thoát của không khí làm miệng và yết hầu thay đổi hình dáng, thể tích, lối thoát của không khí làm biến đổi âm sắc của âm thanh đi qua chúng. Chính vì vậy, hai khoang biến đổi âm sắc của âm thanh đi qua chúng. Chính vì vậy, hai khoang miệng và yết hầu là hai hộp cộng hưởng quan trọng nhất, chúng tạo nên hai miệng và yết hầu là hai hộp cộng hưởng quan trọng nhất, chúng tạo nên hai formant chính formant F1 và F2 đặc trưng của mỗi nguyên âm. formant chính formant F1 và F2 đặc trưng của mỗi nguyên âm.

Các Formant của từ /má/

Page 32: Slider BaiGiangTiengNoi

3.2. Định dạng âm thanh 3.2. Định dạng âm thanh Có nhiều chuẩn lưu trữ âm thanh số (AU, VOC, WAVE, AIFF, AIFF-C Có nhiều chuẩn lưu trữ âm thanh số (AU, VOC, WAVE, AIFF, AIFF-C

và IFF/8VX), nhưng kết quả thực tế cho thấy rằng tập đoàn của và IFF/8VX), nhưng kết quả thực tế cho thấy rằng tập đoàn của Microsoft sử dụng các file wave trong hệ thống điều hành windows, Microsoft sử dụng các file wave trong hệ thống điều hành windows, chúng đã trở thành chuẩn sử dụng phổ biến nhất.chúng đã trở thành chuẩn sử dụng phổ biến nhất.

Âm thanh được xử lý ở dạng PCM, tập tin được lưu lại trên bộ nhớ Âm thanh được xử lý ở dạng PCM, tập tin được lưu lại trên bộ nhớ dưới dạng file WAVE.dưới dạng file WAVE.

Thông thường, các file WAVE PCM có cấu trúc như sau:Thông thường, các file WAVE PCM có cấu trúc như sau: Các khối dữ liệu riêng biệt (còn gọi là các chunk), được thể hiện bằng Các khối dữ liệu riêng biệt (còn gọi là các chunk), được thể hiện bằng

cấu trúc hình cây cơ bản.cấu trúc hình cây cơ bản. Mỗi chunk bao gồm hai phần cơ bản là header và data.Mỗi chunk bao gồm hai phần cơ bản là header và data. Khối đầu tiên, cũng là phần chính của bất kỳ file RIFF nào là khối Khối đầu tiên, cũng là phần chính của bất kỳ file RIFF nào là khối

RIFF, nó giống như gốc của một cây.RIFF, nó giống như gốc của một cây.

Page 33: Slider BaiGiangTiengNoi

struct RIFFstruct RIFF{{

_TCHAR riffID[4]; // Chứa nhận dạng “RIFF”_TCHAR riffID[4]; // Chứa nhận dạng “RIFF”DWORD riffSIZE; // Kích thước file trừ 8 byteDWORD riffSIZE; // Kích thước file trừ 8 byte_TCHAR riffFORMAT[4]; //Chứa nhận dạng “WAVE”_TCHAR riffFORMAT[4]; //Chứa nhận dạng “WAVE”

};};struct FMTstruct FMT{{

_TCHAR fmtID [4]; //chứa nhận dạng FMT và các khoảng trống._TCHAR fmtID [4]; //chứa nhận dạng FMT và các khoảng trống.DWORD fmtSIZE; //chứa kích thước của khối (cho WAVE PCM 16)DWORD fmtSIZE; //chứa kích thước của khối (cho WAVE PCM 16)WAVEFORM fmtFORMAT; //cấu trúc của WAVEFORMATEX WAVEFORM fmtFORMAT; //cấu trúc của WAVEFORMATEX

};};struct WAVEFORMstruct WAVEFORM{{

WORD wFormatTag; WORD wFormatTag; // định dạng âm thanh số// định dạng âm thanh sốWORD nchannels; WORD nchannels; //số kênh (1 cho mono và 2 cho stereo)//số kênh (1 cho mono và 2 cho stereo)DWORD nSamplesPerSec; DWORD nSamplesPerSec; //Số mẫu trong một giây//Số mẫu trong một giâyDWORD nAvgBytesPerSec; DWORD nAvgBytesPerSec; //Trung bình số byte của dữ liệu trong một giây//Trung bình số byte của dữ liệu trong một giâyWORD nBlockAlign; WORD nBlockAlign; //Kích thước tối thiểu của dữ liệu khi phát//Kích thước tối thiểu của dữ liệu khi phátWORD wBitsPerSample; WORD wBitsPerSample; // Số bit lưu một mẫu (8 hoặc 16)// Số bit lưu một mẫu (8 hoặc 16)

};};struct DATAstruct DATA{{

_TCHAR dataID[4]; //Chứa nhận dạng dữ liệu _TCHAR dataID[4]; //Chứa nhận dạng dữ liệu DWORD dataSIZE; //Kích thước dlDWORD dataSIZE; //Kích thước dl

};};

Page 34: Slider BaiGiangTiengNoi

3.3. Thu nhận tiếng nói trong thời gian thực3.3. Thu nhận tiếng nói trong thời gian thực

3.3.1 Thiết bị thu nhận3.3.1 Thiết bị thu nhận Sound card, microphoneSound card, microphone TelephoneTelephone MobilephoneMobilephone VoIP, IDSN.VoIP, IDSN.

3.3.2 Thu nhận trong thời gian thực3.3.2 Thu nhận trong thời gian thực Thu tĩnhThu tĩnh

Mỗi lần chỉ thu được trong một khoảng thời gian khá nhỏ (vì dãy tín Mỗi lần chỉ thu được trong một khoảng thời gian khá nhỏ (vì dãy tín hiệu số phát sinh quá lớn sẽ nhanh chóng lấp đầy phần không gian hiệu số phát sinh quá lớn sẽ nhanh chóng lấp đầy phần không gian lưu trữ). Nếu người sử dụng nói vào thời điểm hàm thu kết thúc thì dữ lưu trữ). Nếu người sử dụng nói vào thời điểm hàm thu kết thúc thì dữ liệu sẽ bị mất mát, do đặc trưng của tín hiệu tiếng nói các hệ thống liệu sẽ bị mất mát, do đặc trưng của tín hiệu tiếng nói các hệ thống thiết kế tốt cũng có thể không phát hiện được, vẫn thực hiện và cho ra thiết kế tốt cũng có thể không phát hiện được, vẫn thực hiện và cho ra kết quả khi dữ liệu đầu vào đã sai.kết quả khi dữ liệu đầu vào đã sai.

Page 35: Slider BaiGiangTiengNoi

Thu trong thời gian thựcThu trong thời gian thực

Cách giải quyết chủ yếu dựa vào một số thủ thuật lập trình, cơ chế Cách giải quyết chủ yếu dựa vào một số thủ thuật lập trình, cơ chế hoạt động của hệ điều hành và cơ chế của hàm thu tín hiệu âm thanh. hoạt động của hệ điều hành và cơ chế của hàm thu tín hiệu âm thanh. Tư tưởng chính là làm một hàng đợi vòng, xử lý kịp thời để không bao Tư tưởng chính là làm một hàng đợi vòng, xử lý kịp thời để không bao giờ bị hết không gian lưu trữ, kết hợp với việc sử dụng cơ chế đa giờ bị hết không gian lưu trữ, kết hợp với việc sử dụng cơ chế đa luồng của hệ điều hành để vẫn có thể thực hiện được đồng thời các luồng của hệ điều hành để vẫn có thể thực hiện được đồng thời các ứng dụng khác.ứng dụng khác.

3.3.3 Thực hành xác định ngưỡng cho tín hiệu nền3.3.3 Thực hành xác định ngưỡng cho tín hiệu nền Đặt mức thu ở giá trị thấp nhất (tín hiệu thu được là nhỏ nhất).Đặt mức thu ở giá trị thấp nhất (tín hiệu thu được là nhỏ nhất). Thu một đoạn dữ liệu ngắn (khoảng 3 giây).Thu một đoạn dữ liệu ngắn (khoảng 3 giây). Tính "histogram" H (H[k] là số mẫu có giá trị biên độ k).Tính "histogram" H (H[k] là số mẫu có giá trị biên độ k). Tìm k trong dãy H phần tử : H[k] có giá trị lớn nhất. Tìm k trong dãy H phần tử : H[k] có giá trị lớn nhất. Ngưỡng zero chính Ngưỡng zero chính

là k.là k.

Page 36: Slider BaiGiangTiengNoi

IV. XỬ Lý TÍN HIỆU SỐIV. XỬ Lý TÍN HIỆU SỐ

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

Người giảng : Ngô Hoàng Huy.Cơ quan: Phòng Nhận dạng, Viện Công nghệ Thông TinE-mail: [email protected];

[email protected]ời gian : 29-10-2004

Page 37: Slider BaiGiangTiengNoi
Page 38: Slider BaiGiangTiengNoi

4.1. Tín hiệu số4.1. Tín hiệu sốTín hiệu là biểu hiện vật lý của thông tin (thông tin về trạng thái hay hànhTín hiệu là biểu hiện vật lý của thông tin (thông tin về trạng thái hay hànhvi của một hệ vật lý.vi của một hệ vật lý.Tín hiệu có thể được biểu diễn như một hàm của các biến độc lập, chẳng Tín hiệu có thể được biểu diễn như một hàm của các biến độc lập, chẳng

hạn hàm theo thời gian (như các chuỗi số liệu kinh tế...)hạn hàm theo thời gian (như các chuỗi số liệu kinh tế...)Ví dụVí dụ: Tín hiệu âm thanh, ảnh, điện(sự thay đổi điện áp...): Tín hiệu âm thanh, ảnh, điện(sự thay đổi điện áp...)Xét lớp các tín hiệu với biến thời gian.Xét lớp các tín hiệu với biến thời gian.4.1.1 Phân loại tín hiệu4.1.1 Phân loại tín hiệu Tín hiệu liên tục theo thời gianTín hiệu liên tục theo thời gian Tín hiệu rời rạcTín hiệu rời rạc Tín hiệu tương tự : tín hiệu liên tục cả về biên độ lẫn thời gianTín hiệu tương tự : tín hiệu liên tục cả về biên độ lẫn thời gian Tín hiệu số : Tín hiệu rời rạc có biên độ cũng rời rạcTín hiệu số : Tín hiệu rời rạc có biên độ cũng rời rạcPhép chuyển đổi : tín hiệu liên tục sang rời rạc & ngược lạiPhép chuyển đổi : tín hiệu liên tục sang rời rạc & ngược lạiTín hiệu được lấy mẫu (sampled signal)Tín hiệu được lấy mẫu (sampled signal)4.1.2 Tín hiệu rời rạc4.1.2 Tín hiệu rời rạcĐược biểu diễn bởi một dãy các giá trị thực hoặc phức theo chỉ số Được biểu diễn bởi một dãy các giá trị thực hoặc phức theo chỉ số

nguyên n, x(n). x={x(n)}, n nguyênnguyên n, x(n). x={x(n)}, n nguyên

Page 39: Slider BaiGiangTiengNoi

4.1.3 Các phép tóan với tín hiệu rời rạc4.1.3 Các phép tóan với tín hiệu rời rạc Phép toán số họcPhép toán số học

x.y={x(n)*y(n)}x.y={x(n)*y(n)}a.x={a*x(n)}a.x={a*x(n)}X+y={x(n)+y(n)}X+y={x(n)+y(n)}

Phép dịch nPhép dịch n00 mẫu: mẫu:y={x(n-ny={x(n-n00)})}

Tổng chập (convolution sum)Tổng chập (convolution sum)xxOOh={z(n)}h={z(n)}z(n)=tổng x(k)*h(n-k): z(n)=tổng x(k)*h(n-k): Tổng chập có tính giao hoánTổng chập có tính giao hoán: x: xOOh= hh= hOOxx

Ví dụVí dụ:: h(n)=1 n=0, 0 trái lại: thì với mọi tín hiệu x : x = xh(n)=1 n=0, 0 trái lại: thì với mọi tín hiệu x : x = xOOhh z(n)=1/5 [x(n-2) + x(n-1) + x(n) + x(n+1) + x(n+2)].z(n)=1/5 [x(n-2) + x(n-1) + x(n) + x(n+1) + x(n+2)].

Xét h={h(n)}, với h(2) = h(1) = h(0) = h(-1) = h(-2) = 0.2.Xét h={h(n)}, với h(2) = h(1) = h(0) = h(-1) = h(-2) = 0.2.Ta viết gọn lại: h=[h(-2),h(-1),h(0),h(1),h(2)]=[0.2, 0.2, 0.2, 0.2, 0.2]Ta viết gọn lại: h=[h(-2),h(-1),h(0),h(1),h(2)]=[0.2, 0.2, 0.2, 0.2, 0.2]Khi đó z=xKhi đó z=xOOhh

Page 40: Slider BaiGiangTiengNoi

4.2. Các hệ thống xử lý tín hiệu rời rạc4.2. Các hệ thống xử lý tín hiệu rời rạcThiết lập mối quan hệ giữa tín hiệu đầu vào và tín hiệu đầu raThiết lập mối quan hệ giữa tín hiệu đầu vào và tín hiệu đầu ra4.2.1. Toán tử T: tín hiệu vào x, qua biến đổi ta được tín hiệu ra y4.2.1. Toán tử T: tín hiệu vào x, qua biến đổi ta được tín hiệu ra y

T: x T: x → y→ y y(n)=T[x(n)] y(n)=T[x(n)]

Tín hiệu x gọi là tác động, tín hiệu y gọi là đáp ứng.Tín hiệu x gọi là tác động, tín hiệu y gọi là đáp ứng.4.2.2. Phân loại hệ thống xử lý tín hiệu số.4.2.2. Phân loại hệ thống xử lý tín hiệu số.4.2.2.1Hệ thống tuyến tính:4.2.2.1Hệ thống tuyến tính:

T gọi là tuyến tính nếu với mọi tín hiệu xT gọi là tuyến tính nếu với mọi tín hiệu x11,x,x22::T[xT[x11(n)] + T[x(n)] + T[x22(n)] = T[x(n)] = T[x11(n)+x(n)+x22(n)](n)]T[a.x(n)] T[a.x(n)] = a.T[x(n)] với mọi số a là thực hoặc phức = a.T[x(n)] với mọi số a là thực hoặc phức

Tính chất.Tính chất.Mọi hệ thống tuyến tính T đều tồn tại tín hiệu h sao cho:Mọi hệ thống tuyến tính T đều tồn tại tín hiệu h sao cho:với mọi tín hiệu tác động x : Tx = xvới mọi tín hiệu tác động x : Tx = xOOh.h.Tín hiệu h gọi là đáp ứng xung. Vì sao lại có tên đáp ứng xung?Tín hiệu h gọi là đáp ứng xung. Vì sao lại có tên đáp ứng xung?Điều này cũng đúng với khẳng định ngược lại.Điều này cũng đúng với khẳng định ngược lại.Ví dụVí dụ: Xét hệ thống tuyến tính với đáp ứng xung h:h(n)=a: Xét hệ thống tuyến tính với đáp ứng xung h:h(n)=ann, n>=0, 0 trái lại, n>=0, 0 trái lại4.2.2.2 Phân loại hệ thống tuyến tính.4.2.2.2 Phân loại hệ thống tuyến tính. Hệ có đáp ứng xung hữu hạn (FIR-Finite Impulse Response System):Hệ có đáp ứng xung hữu hạn (FIR-Finite Impulse Response System): Hệ có đáp ứng xung vô hạn: (IIR-Infinite Impulse Response System):Hệ có đáp ứng xung vô hạn: (IIR-Infinite Impulse Response System):4.2.2.3 Hệ thống phi tuyến : ngược lại với hệ thống tuyến tính4.2.2.3 Hệ thống phi tuyến : ngược lại với hệ thống tuyến tính4.2.2.4 Hệ thống bất biến theo thời gian (time invariant system) :4.2.2.4 Hệ thống bất biến theo thời gian (time invariant system) :tín hiệu vào dịch đi một thời gian k thì tín hiệu ra cũng bị dịch đi một thời gian ktín hiệu vào dịch đi một thời gian k thì tín hiệu ra cũng bị dịch đi một thời gian k

Page 41: Slider BaiGiangTiengNoi

4.3. Biến đổi Z4.3. Biến đổi Z

Định nghĩa: Phép biến đổi Z của tín hiệu x(n) là X(z)=tổng Định nghĩa: Phép biến đổi Z của tín hiệu x(n) là X(z)=tổng x(n).zx(n).z-n, -n, ở đây z là số phức. Khi z=e ở đây z là số phức. Khi z=ejjωω , tức /z/=1 thì nó trở , tức /z/=1 thì nó trở thành biến đổi Fourierthành biến đổi Fourier

Ví dụ: x(n)=aVí dụ: x(n)=annu(n), u(n)=1 nếu n>=0, 0 trái lại, X(z)=1/1-a.zu(n), u(n)=1 nếu n>=0, 0 trái lại, X(z)=1/1-a.z-1-1 , , /z/ > a/z/ > a

Tính chất: Biến đổi Z của tín hiệu trễ n0 mẫu y(n)=x(n-n0)Tính chất: Biến đổi Z của tín hiệu trễ n0 mẫu y(n)=x(n-n0)

Y(z)=zY(z)=z-n0-n0 X(z) X(z)

Biến đổi Z của tổng chập là tích của hai biến đổi z tương ứngBiến đổi Z của tổng chập là tích của hai biến đổi z tương ứng

y=x*h, thì Y(z)=X(z).H(z)y=x*h, thì Y(z)=X(z).H(z)

Hàm truyền đạt (transfer function): Biến đổi Z của đáp ứng Hàm truyền đạt (transfer function): Biến đổi Z của đáp ứng xung h: H(z) xung h: H(z)

Ví dụ: Tính biến đổi Z của tín hiệu y(n)=x(n)-0.95x(n-1)Ví dụ: Tính biến đổi Z của tín hiệu y(n)=x(n)-0.95x(n-1)

Tính hàm truyền đạt H(z)Tính hàm truyền đạt H(z)

Page 42: Slider BaiGiangTiengNoi

4.4. Biểu diễn miền tần số và biến đổi Fourier4.4. Biểu diễn miền tần số và biến đổi FourierVí dụVí dụ: Xét tín hiệu x(t)=Asin(: Xét tín hiệu x(t)=Asin(ωωt+t+φφ))Biểu diễn theo trục thời gian t thì phức tạp nhưng nếu biểu diễn trong Biểu diễn theo trục thời gian t thì phức tạp nhưng nếu biểu diễn trong

miền tần số thì rất đơn giản: tham số biên độ A, tần số miền tần số thì rất đơn giản: tham số biên độ A, tần số ωω,, góc góc φφVí dụVí dụ: x(n)=e: x(n)=ejjωωnn, tần số , tần số ωω=2=2ππf, f, y(n)=tổng chập h(k).x(n-k)= ey(n)=tổng chập h(k).x(n-k)= e jjωωnn tổng h(k) e- tổng h(k) e-jjωωkk H(eH(ejjωω)= tổng h(k) e-)= tổng h(k) e-jjωωkk : đáp ứng tần số của hệ thống : đáp ứng tần số của hệ thống4.4.1.Khai triển Fourier:4.4.1.Khai triển Fourier:Mọi hàm tuần hòan bình phương khả tích đều khai triển thành chuỗi Mọi hàm tuần hòan bình phương khả tích đều khai triển thành chuỗi

FourierFourier4.4.2.Biến đổi Fourier thuận:4.4.2.Biến đổi Fourier thuận:

X(eX(ejjωω) = tổng x(n) e-) = tổng x(n) e-jjωωnn

4.4.3.Biến đổi Fourier ngược:4.4.3.Biến đổi Fourier ngược: X(n)=1/2X(n)=1/2ππ tích phân [- tích phân [-ππ, , ππ] X(e] X(ejjωω) e) ejjωωn n d d ωω Tính chất bảo tồn năng lượng:Tính chất bảo tồn năng lượng:

Tổng x(n)Tổng x(n)2 2 = 1/2= 1/2ππ tích phân [0, 2 tích phân [0, 2ππ] /X(e] /X(ejjωω)/)/22d d ωω Tính chất tuyến tínhTính chất tuyến tính Tính trễTính trễ

y(n)=x(n-ny(n)=x(n-n00))

Thì YThì Y(e(ejjωω)= e-)= e-jjωωn0n0XX(e(ejjωω) chỉ biến đổi pha, bảo tòan năng lượng và biên độ) chỉ biến đổi pha, bảo tòan năng lượng và biên độ

Page 43: Slider BaiGiangTiengNoi

4.5. Biến đổi Fourier rời rạc FFT4.5. Biến đổi Fourier rời rạc FFT Phép biến đổi nhanh FFT không phải là một phép biến đổi mới nó thực Phép biến đổi nhanh FFT không phải là một phép biến đổi mới nó thực

chất là DFT nhưng được thực hiện với một thuật toán nhanh, gọn. Đây chất là DFT nhưng được thực hiện với một thuật toán nhanh, gọn. Đây là thuật toán đóng vai trò hết sức quan trọng trong việc phân tích, thiết là thuật toán đóng vai trò hết sức quan trọng trong việc phân tích, thiết kế và xử lý tín hiệu.kế và xử lý tín hiệu.

Thuật toán biến đổi nhanh FFT cho N mẫu {x(n)}:Thuật toán biến đổi nhanh FFT cho N mẫu {x(n)}:

Phép biến đổi ngược: NknjekX

Nnx /21 n = 0, 1, …, N-1

Phép biến đổi FFT bảo toàn tính tuyến tính bất biến, tuần hoàn và tính trễ.

1

0

2N

n

knj NekXkX 1,...2,1,0 NkPhép biến đổi thuận:

4.6. Biểu diễn tín hiệu trong miền tần số

Trục tung: tần số Hz

Trục hoành : năng lượng dB

Page 44: Slider BaiGiangTiengNoi
Page 45: Slider BaiGiangTiengNoi

Trình bày thuật toán trên ngôn ngữ CTrình bày thuật toán trên ngôn ngữ C

void ScrAmble(long numPoints, struct _complex *f){

long i,j,m;double temp;j=0;for(i=0; i < numPoints;i++){

if(i < j){

// swap f[i] & f[j]temp=f[i].x;f[i].x=f[j].x;f[j].x=temp;temp=f[i].y;f[i].y=f[j].y;f[j].y=temp;

} // ifm=numPoints >> 1;while( (j >= m) && (m >= 2) ){

j-=m;m>>=1;

} // whilej+=m;

} // for} // ScrAmble

Page 46: Slider BaiGiangTiengNoi

void ButterFlies(long numPoints,int logN,int dir, struct _complex *f)void ButterFlies(long numPoints,int logN,int dir, struct _complex *f){{

double angle, wtemp;double angle, wtemp;_complex w,wp,temp;_complex w,wp,temp;long i,j,k,offset,N, halfN;long i,j,k,offset,N, halfN;N=1;N=1;for(k=0;k < logN;k++)for(k=0;k < logN;k++){{

halfN=N;N<<=1;angle=-2.0*(M_PI/(double)N)*(double)dir;halfN=N;N<<=1;angle=-2.0*(M_PI/(double)N)*(double)dir;wp.x=cos(angle);wp.y=sin(angle);wp.x=cos(angle);wp.y=sin(angle);w.x=1.0;w.y=0.0;w.x=1.0;w.y=0.0;for(offset=0; offset < halfN; offset++)for(offset=0; offset < halfN; offset++){{

for(i=offset; i < numPoints;i+=N)for(i=offset; i < numPoints;i+=N){{

j=i+halfN;j=i+halfN;temp.x=(w.x*f[j].x) - (w.y*f[j].y);temp.y=(w.x*f[j].y) + (w.y*f[j].x);temp.x=(w.x*f[j].x) - (w.y*f[j].y);temp.y=(w.x*f[j].y) + (w.y*f[j].x);

f[j].x=f[i].x - temp.x;f[j].y=f[i].y - temp.y;f[j].x=f[i].x - temp.x;f[j].y=f[i].y - temp.y;f[i].x+=temp.x;f[i].y+=temp.y;f[i].x+=temp.x;f[i].y+=temp.y;

} // for} // forwtemp=w.x;w.x=wtemp*wp.x - w.y*wp.y ;w.y= w.y*wp.x + wtemp*wp.y ;wtemp=w.x;w.x=wtemp*wp.x - w.y*wp.y ;w.y= w.y*wp.x + wtemp*wp.y ;

} // for} // for} // for} // forif(dir!=-1) return;if(dir!=-1) return;for(i=0; i < numPoints; i++)for(i=0; i < numPoints; i++){{

f[i].x/=(double)numPoints;f[i].y/=(double)numPoints;f[i].x/=(double)numPoints;f[i].y/=(double)numPoints;} // for} // for

} // ButterFlies} // ButterFlies

Page 47: Slider BaiGiangTiengNoi

void FFT(struct _complex *f, int logN,long numPoints,int dir)void FFT(struct _complex *f, int logN,long numPoints,int dir)

{{

ScrAmble(numPoints,f);ScrAmble(numPoints,f);

ButterFlies(numPoints,logN,dir,f);ButterFlies(numPoints,logN,dir,f);

} // FFT} // FFT

4.7. Ứng dụng biến đổi FFT trong vấn đề lọc nhiễuHiện tại, việc lọc nhiễu của hệ thống được thực hiện theo phương pháp kinh

điển là dùng phép biến đổi Fourier với thuật toán FFT. Dùng biến đổi Fourier thuận xác định được các tần số tham gia và loại đi tất cả tần số không thuộc phạm vi tiếng nói (nếu biết được phạm vi tần số của đúng người sử dụng thì kết quả lọc sẽ càng cao hơn) bằng cách cho các hệ số tương ứng giá trị zero sau đó biến đổi ngược lại.

Page 48: Slider BaiGiangTiengNoi

V. m« h×nh tãan häc cña vocal tract & V. m« h×nh tãan häc cña vocal tract &

phÐp dù b¸o tuyÕn tÝnh (LPC)phÐp dù b¸o tuyÕn tÝnh (LPC)

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

Người giảng : Ngô Hoàng Huy.Cơ quan: Phòng Nhận dạng, Viện Công nghệ Thông TinE-mail: [email protected];

[email protected]

Page 49: Slider BaiGiangTiengNoi

5.1. Mô hình dây thanh (vocal tract)5.1. Mô hình dây thanh (vocal tract)

Mô hình dây thanh như một ống có p đoạn.Mô hình dây thanh như một ống có p đoạn.ug, ul là thể tích không khí tại thanh môn và môi tương ứng.ug, ul là thể tích không khí tại thanh môn và môi tương ứng.Dây thanh có độ dài L (L=15-17cm cho người trưởng thành)Dây thanh có độ dài L (L=15-17cm cho người trưởng thành)Độ dài mỗi đoạn là khoảng cách sóng trong ½ chu kỳ mẫu: cT/2Độ dài mỗi đoạn là khoảng cách sóng trong ½ chu kỳ mẫu: cT/2C= tốc độ sóng trong không khí xấp xỉ bằng: 340 m/sC= tốc độ sóng trong không khí xấp xỉ bằng: 340 m/sT=1/fsT=1/fsSố các đọan cần thiết là : 2L/cT=fs/1000Số các đọan cần thiết là : 2L/cT=fs/1000Tín hiệu âm học là chồng của 2 sóng u, v: một theo hướng thuận, 1 Tín hiệu âm học là chồng của 2 sóng u, v: một theo hướng thuận, 1

theo hướng ngược lạitheo hướng ngược lại

Thể tích hơi = u-v

Áp suất âm=(u+v)ρC/A

Page 50: Slider BaiGiangTiengNoi

Đoạn trễ.

Thời gian sóng truyền trên 1 đoạn :L/cp

v(t)=x(t-L/cp), u(t)=w(t+L/cp)

Độ dài đoạn tương ứng với ½ chu kì mẫu

Dùng biến đổi Z:

V(z)=z-1/2X(z), U(z)=z1/2W(z) . Ở dạng ma trận

Page 51: Slider BaiGiangTiengNoi

Khớp đoạn

Page 52: Slider BaiGiangTiengNoi

Hệ số phản xạ RC (reflection coefficiént)Hệ số phản xạ RC (reflection coefficiént)

r=(B-A)/(B+A): -1 ≤ r ≤ 1

Mô hình cho 2-đoạn

Giả thiết:

Vl=0: không có âm thanh phản xạ lại mồm

A3 lớn, nhưng bị chặn, ống hẹp bị gãy tại điểm này.

A0 xấp xỉ 0, diện tích mở thanh môn

Page 53: Slider BaiGiangTiengNoi

Hàm truyền đạt của vocal tractHàm truyền đạt của vocal tract

Bỏ qua Vg, hàm truyền đạt cho bởi tỉ lệ Ul, Ug

Nhận thấy rằng:

Suy ra:

Vậy hàm truyền đạt có dang:

Page 54: Slider BaiGiangTiengNoi

5.2. Khung tiếng nói (frame)5.2. Khung tiếng nói (frame)

Tín hiệu tiếng nói luôn luôn biến thiên theo thời gian, tuy nhiên, trong Tín hiệu tiếng nói luôn luôn biến thiên theo thời gian, tuy nhiên, trong khoảng thời gian khoảng 10-20ms, tín hiệu tiếng nói đ ược coi là t khoảng thời gian khoảng 10-20ms, tín hiệu tiếng nói đ ược coi là t ương đối ổn định. Do đó, tín hiệu thường đ ược chia thành các ương đối ổn định. Do đó, tín hiệu thường đ ược chia thành các khung kích thước 20ms-30 ms với vùng gối lên nhau khoảng 10ms-khung kích thước 20ms-30 ms với vùng gối lên nhau khoảng 10ms-15ms 15ms

Frame i Frame i=+1

Cöa sæ i

Cöa sæ i+1

Dl chia sÎ Dl mí i

Page 55: Slider BaiGiangTiengNoi

5.3. Các phép tiền xử lý5.3. Các phép tiền xử lý

Làm rõ tín hiệu (pre-emphasize)Làm rõ tín hiệu (pre-emphasize)Nhằm làm nổi bật đặc trưng phổ của tín Nhằm làm nổi bật đặc trưng phổ của tín

hiệu. Thông thường bộ làm rõ tín hiệu hiệu. Thông thường bộ làm rõ tín hiệu là một bộ lọc thông cao với phương là một bộ lọc thông cao với phương trình sai phân là:trình sai phân là:

Trong đó 0.9 Trong đó 0.9 a a 1. Có thể chọn a = 0.95 1. Có thể chọn a = 0.95 Hàm cửa sổ (window function)Hàm cửa sổ (window function)cửa sổ hoá mỗi frame để làm giảm thiểu cửa sổ hoá mỗi frame để làm giảm thiểu

sự gián đoạn tínsự gián đoạn tínhiệu ở đầu và cuối mỗi frame. Tập {x(n)} hiệu ở đầu và cuối mỗi frame. Tập {x(n)}

là các giá trị của tín là các giá trị của tín hiệu, nếu chúng ta định nghĩa cửa sổ là hiệu, nếu chúng ta định nghĩa cửa sổ là

w(n), N là số mẫuw(n), N là số mẫucho mỗi khung thì kết quả cửa sổ hoá tín cho mỗi khung thì kết quả cửa sổ hoá tín

hiệu sẽ là: hiệu sẽ là: Đối với tín hiệu tiếng nói người ta thường Đối với tín hiệu tiếng nói người ta thường

sử dụng cửa sổsử dụng cửa sổHamming:Hamming:

1

2cos46.054.0)(

N

nnw

10 Nn

Hàm cửa sổ

Đáp ứng tần số

Page 56: Slider BaiGiangTiengNoi

5.4. 5.4. Mã hóa Dự báo tuyến tính LPC (Linear Prediction coding)Mã hóa Dự báo tuyến tính LPC (Linear Prediction coding)

Theo mô hình hóa hàm truyền đạt của vocal tract có thể được xấp xỉ là :Theo mô hình hóa hàm truyền đạt của vocal tract có thể được xấp xỉ là :

• Phân tích dự báo tuyến tính có nghĩa là một mẫu tiếng nói có thể được tính xấp xỉ bằng tổ hợp tuyến tính của các mẫu trước đó. Tối thiểu hoá tổng của các bình phương sai số giữa các mẫu hiện tại và các mẫu dự đoán tuyến tính ta có thể xác định được một tập duy nhất các hệ số dự báo.

Chúng ta định nghĩa dãy tín hiệu tiếng nói bằng hàm s(n), giá trị dự báo:

P

kk knsns

1

~

• Lỗi dự báo:

P

kk knsnsnsnsne

1

~

• Độ đo lỗi trên một đọan tín hiệu :

2

1

2

m

P

knkn

mnn kmsmsneE

• Bậc dự báo : p

Page 57: Slider BaiGiangTiengNoi

5.4.1. Thuật tóan tính hệ số LPC5.4.1. Thuật tóan tính hệ số LPC

Muốn cực tiểu hoá các lỗi xảy ra cần phải chọn giá trì phù hợp nhất, tối Muốn cực tiểu hoá các lỗi xảy ra cần phải chọn giá trì phù hợp nhất, tối ưu nhất đối với tập giá trị . Phương pháp tiếp cận là tìm một tập các hệ ưu nhất đối với tập giá trị . Phương pháp tiếp cận là tìm một tập các hệ

số dự báo để tối thiểu hoá sai số trung bình trên một đoạn ngắnsố dự báo để tối thiểu hoá sai số trung bình trên một đoạn ngắn..

2

11

2 2

m m

P

knk

P

knkn

mn kmskmsmsms

2

11

2 2

m m m

P

knk

P

knnkn kmskmsmsms

Trong đó sn(m) là một đoạn tín hiệu tiếng nói được chọn ở lân cận của mẫu thứ n, nghĩa là: sn(m)=s(n+m)

Chúng ta có thể tìm được các giá trị để tối thiểu hoá En trong phương trình bằng phương trình sau:

0 inE Pi 1

imskmsimsmsE

nm

P

knk

mnn

i

1

220

m

nnm

P

kknn kmsimsmsims

1

Page 58: Slider BaiGiangTiengNoi

Đặt m

nnn kmsimski,

Thì phương trình có dạng sau:

P

knkn kii

1,0, Pi 1

Lỗi trên đọan tín hiệu là:

P

k mnnk

mnn kmsmsmsE

1

2

việc tính toán và nghiệm của hệ phương trình là khá rắc rối. Phương pháp thông dụng để áp dụng giải các phương trình là phương pháp tự tương quan.

Chúng ta giả sử đoạn tín hiệu sn(m) = 0 ngoài khoảng [0,N-1] . Điều này có thể được biểu diễn như sau: mwnmsmsn

Do đó sai số dự đoán en(m) cho bộ dự đoán bậc p sẽ khác không trong khoảng[0,N-1+p]

pNm 10

. Vì vậy En có dạng sau:

1

0

2pN

mnn meE

Page 59: Slider BaiGiangTiengNoi

1

0,

pN

mnnn kmsimski

kiN

mnnn kimsmski

1

0,

pk

pi

0

1

Gọi Rn(k) là hàm tự tương quan có dạng:

kN

mnnn kmsmskR

1

0

Ta có kiRki nn ,

kiRki nn ,pk

pi

,...,2,1,0

,...,2,1

p

knnk iRkiR

1

Hệ phương trình này còn có thể được viết dưới dạng ma trận như sau:

rR 1

Pr

r

r

r

r

pr

pr

pr

r

r

pr

r

r

R

P

2

1

0

2

1

2

0

1

1

1

0

2

1

Page 60: Slider BaiGiangTiengNoi

Ma trận dạng đối xứng, tất cả các phần tử thuộc đường chéo của ma trận này đều có giá trị bằng nhau. Ma trận nghịch đảo luôn tồn tại.

p

knknn kRRE

10 Đô đo lỗi trở thành:

Thuật tóan Durbin-Levison để giải hệ phương trình tuyến tính.

Trình bày thuật toán trên ngôn ngữ C:void ComputeCorrelation(double *sample,int nSample, double *coeffCorrelation,

int nLPC_AUTO){

int i,k,nk;for (k = 0; k <= nLPC_AUTO; k++){

nk = nSample - k;coeffCorrelation[k] = 0.0;for (i = 0; i < nk; i++)

coeffCorrelation[k] += sample[i] * sample[i + k];} // for

} // ComputeCorrelation

Page 61: Slider BaiGiangTiengNoi

void Durbin_RC(int nLPC,double *coeffCorrelation,double *coeffRC,void Durbin_RC(int nLPC,double *coeffCorrelation,double *coeffRC, double &beta)double &beta){{

int i, j;int i, j;double a[MAX_LPC_ORDER + 1], at[MAX_LPC_ORDER + 1], e;double a[MAX_LPC_ORDER + 1], at[MAX_LPC_ORDER + 1], e;for (i = 0; i <= nLPC; i++)for (i = 0; i <= nLPC; i++)a[i] = at[i] = 0.0;a[i] = at[i] = 0.0;e = coeffCorrelation[0];e = coeffCorrelation[0];for (i = 1; i <= nLPC; i++) for (i = 1; i <= nLPC; i++) {{coeffRC[i] = -coeffCorrelation[i];coeffRC[i] = -coeffCorrelation[i];for (j = 1; j < i; j++)for (j = 1; j < i; j++){{at[j] = a[j];at[j] = a[j];coeffRC[i] -= a[j] * coeffCorrelation[i - j];coeffRC[i] -= a[j] * coeffCorrelation[i - j];} // for} // forcoeffRC[i] /= e;coeffRC[i] /= e;a[i] = coeffRC[i];a[i] = coeffRC[i];for (j = 1; j < i; j++)for (j = 1; j < i; j++)a[j] = at[j] + coeffRC[i] * at[i - j];a[j] = at[j] + coeffRC[i] * at[i - j];e *= 1.0f - coeffRC[i] * coeffRC[i];e *= 1.0f - coeffRC[i] * coeffRC[i];} // for} // forif (e < 0)if (e < 0)e = 0;e = 0;beta=sqrt(e);beta=sqrt(e);

} // Durbin_RC} // Durbin_RC

Page 62: Slider BaiGiangTiengNoi

// He so a[] duo xac dinh boi// He so a[] duo xac dinh boi// x[n] ~= e[n]+ a[1]*x[n-1] + ...+ a[p]*x[n-p]// x[n] ~= e[n]+ a[1]*x[n-1] + ...+ a[p]*x[n-p]//***************************************************//***************************************************void Durbin_LPC_RC(int nLPC,double *coeffCorrelation,double void Durbin_LPC_RC(int nLPC,double *coeffCorrelation,double *coeffRC, double *a, double &beta)*coeffRC, double *a, double &beta){{

int i, j;int i, j;double at[MAX_LPC_ORDER + 1], e;double at[MAX_LPC_ORDER + 1], e;for (i = 0; i <= nLPC; i++)for (i = 0; i <= nLPC; i++)

a[i] = at[i] = 0.0;a[i] = at[i] = 0.0;e = coeffCorrelation[0];a[0]=1.0;e = coeffCorrelation[0];a[0]=1.0;for (i = 1; i <= nLPC; i++) for (i = 1; i <= nLPC; i++) {{

coeffRC[i] = -coeffCorrelation[i];coeffRC[i] = -coeffCorrelation[i];for (j = 1; j < i; j++)for (j = 1; j < i; j++){{

at[j] = a[j];coeffRC[i] -= a[j] * coeffCorrelation[i - j];at[j] = a[j];coeffRC[i] -= a[j] * coeffCorrelation[i - j];} // for} // forcoeffRC[i] /= e;a[i] = coeffRC[i];coeffRC[i] /= e;a[i] = coeffRC[i];for (j = 1; j < i; j++)for (j = 1; j < i; j++)

a[j] = at[j] + coeffRC[i] * at[i - j];a[j] = at[j] + coeffRC[i] * at[i - j];e *= 1.0f - coeffRC[i] * coeffRC[i];e *= 1.0f - coeffRC[i] * coeffRC[i];

} // for} // forif (e < 0)e = 0;if (e < 0)e = 0;beta=sqrt(e);} // Durbin_LPC_RCbeta=sqrt(e);} // Durbin_LPC_RC

Page 63: Slider BaiGiangTiengNoi

5.5. Mã hóa dự báo tuyến tính5.5. Mã hóa dự báo tuyến tính

Khi đã biết p mẫu đầu tiên của frame ta sẽ xác định được mọi mẫu tín Khi đã biết p mẫu đầu tiên của frame ta sẽ xác định được mọi mẫu tín hiệu của frame?hiệu của frame?

Uớc ượng dạng của tín hiệu lỗi eUớc ượng dạng của tín hiệu lỗi en:n:

Trên frame tín hiệu. Ta xétTrên frame tín hiệu. Ta xét

Frame thuộc đoạn tiếng nói hữu thanh: eFrame thuộc đoạn tiếng nói hữu thanh: enn tuần hòan chu kỳ chu kỳ F tuần hòan chu kỳ chu kỳ F0 0

cùng với tín hiệu mẫu scùng với tín hiệu mẫu snn

Frame thuộc đọan tiếng nói vô thanh: eFrame thuộc đọan tiếng nói vô thanh: enn là tín hiệu ngẫu nhiên là tín hiệu ngẫu nhiên

Page 64: Slider BaiGiangTiengNoi

VI. ThuËt tãan quy ho¹ch ®éng (Dynamic programming)VI. ThuËt tãan quy ho¹ch ®éng (Dynamic programming)

BÀI GIẢNG XỬ LÝ TIẾNG NÓI

Người giảng : Ngô Hoàng Huy.Cơ quan: Phòng Nhận dạng, Viện Công nghệ Thông TinE-mail: [email protected];

[email protected]

Page 65: Slider BaiGiangTiengNoi

Quy ho¹ch ®éng ® îc sö dông réng r·i trong c¸c nghiªn cøu vËn Quy ho¹ch ®éng ® îc sö dông réng r·i trong c¸c nghiªn cøu vËn trï häc ®Ó gi¶i quyÕt vÊn ®Ò quyÕt ®Þnh theo d·y. VÊn ®Ò trï häc ®Ó gi¶i quyÕt vÊn ®Ò quyÕt ®Þnh theo d·y. VÊn ®Ò ®Çu tiªn lµ vÊn ®Ò ® êng dÉn tèi u cã thÓ ® îc ph¸t biÓu nh ®Çu tiªn lµ vÊn ®Ò ® êng dÉn tèi u cã thÓ ® îc ph¸t biÓu nh sau:sau:

XÐt mét tËp ®iÓm ® îc ®¸nh nh·n tõ 1 tíi N. KÕt hîp víi mçi cÆp XÐt mét tËp ®iÓm ® îc ®¸nh nh·n tõ 1 tíi N. KÕt hîp víi mçi cÆp ®iÓm (i,j) lµ mét gi¸ trÞ kh«ng ©m cost(i,j) biÓu diÔn “gi¸ ®iÓm (i,j) lµ mét gi¸ trÞ kh«ng ©m cost(i,j) biÓu diÔn “gi¸ thµnh” cña viÖc di chuyÓn tõ ®iÓm thø i tíi ®iÓm thø j trong thµnh” cña viÖc di chuyÓn tõ ®iÓm thø i tíi ®iÓm thø j trong mét b íc.mét b íc.

VÊn ®Ò ®Æt ra lµ t×m gi¸ thµnh cùc tiÓu còng nh ·y di chuyÓn VÊn ®Ò ®Æt ra lµ t×m gi¸ thµnh cùc tiÓu còng nh ·y di chuyÓn t ¬ng øng tõ ®iÓm ®¸nh nh·n 1 tíi ®iÓm kh¸c víi nh·n i.t ¬ng øng tõ ®iÓm ®¸nh nh·n 1 tíi ®iÓm kh¸c víi nh·n i.

Do d·y cña phÐp di chuyÓn tõ mét ®iÓm tõ tíi mét ®iÓm kh¸c Do d·y cña phÐp di chuyÓn tõ mét ®iÓm tõ tíi mét ®iÓm kh¸c lµ mét sè kh«ng biÕt tr íc c¸c b íc chuyÓn tiÕp chóng ta gäi ®©y lµ mét sè kh«ng biÕt tr íc c¸c b íc chuyÓn tiÕp chóng ta gäi ®©y lµ mét vÊn ®Ò quyÕt ®Þnh d·y kh«ng ®ång bé.lµ mét vÊn ®Ò quyÕt ®Þnh d·y kh«ng ®ång bé.

Chóng ta gäi luËt quyÕt ®Þnh ®Ó x¸c ®Þnh ®iÓm tiÕp theo ® Chóng ta gäi luËt quyÕt ®Þnh ®Ó x¸c ®Þnh ®iÓm tiÕp theo ® îc ®i tíi sau ®iÓm i lµ mét “chÝnh s¸ch”. Tõ chÝnh s¸ch x¸c îc ®i tíi sau ®iÓm i lµ mét “chÝnh s¸ch”. Tõ chÝnh s¸ch x¸c ®Þnh d·y ®iÓm ® îc duyÖt tõ ®iÓm ban ®Çu cè ®Þnh tíi ®iÓm ®Þnh d·y ®iÓm ® îc duyÖt tõ ®iÓm ban ®Çu cè ®Þnh tíi ®iÓm i, chóng ta x¸c ®Þnh hµm gi¸ thµnh phô thuéc vµo chÝnh s¸ch i, chóng ta x¸c ®Þnh hµm gi¸ thµnh phô thuéc vµo chÝnh s¸ch vµ ®iÓm ®Ých i. C©u hái ®Æt ra lµ chÝnh s¸ch nµo sÏ dÉn tíi vµ ®iÓm ®Ých i. C©u hái ®Æt ra lµ chÝnh s¸ch nµo sÏ dÉn tíi gi¸ thµnh cùc tiÓu cho viÖc di chuyÓn tõ ®iÓm 1 tíi ®iÓm i. Ký gi¸ thµnh cùc tiÓu cho viÖc di chuyÓn tõ ®iÓm 1 tíi ®iÓm i. Ký hiÖu gi¸ trÞ cùc tiÓu cña hµm gi¸ thµnh lµ hiÖu gi¸ trÞ cùc tiÓu cña hµm gi¸ thµnh lµ (1,i).(1,i).

Nguyªn lý tèi u, lµ c¬ së cho mét líp c¸c thuËt to¸n tÝnh to¸n Nguyªn lý tèi u, lµ c¬ së cho mét líp c¸c thuËt to¸n tÝnh to¸n cho c¸c vÊn ®Ò tèi u nh trªn thuéc vÒ Bellman, nã ® îc ph¸t cho c¸c vÊn ®Ò tèi u nh trªn thuéc vÒ Bellman, nã ® îc ph¸t biÓu nh sau:biÓu nh sau:

Nguyªn lý Bellman(tÝnh đệ quy)Nguyªn lý Bellman(tÝnh đệ quy). . Mét chÝnh s¸ch tèi u cã tÝnh chÊt lµ bÊt kú ë ®©u cña tr¹ng th¸i Mét chÝnh s¸ch tèi u cã tÝnh chÊt lµ bÊt kú ë ®©u cña tr¹ng th¸i

ban ®Çu vµ quyÕt ®Þnh, th× quyÕt ®Þnh nµy vÉn cßn lµ mét ban ®Çu vµ quyÕt ®Þnh, th× quyÕt ®Þnh nµy vÉn cßn lµ mét chÝnh s¸ch tèi u víi ®¸nh gi¸ tíi c¸c tr¹ng th¸i nhËn ® îc tõ quyÕt chÝnh s¸ch tèi u víi ®¸nh gi¸ tíi c¸c tr¹ng th¸i nhËn ® îc tõ quyÕt ®Þnh ®Çu tiªn .®Þnh ®Çu tiªn .

6.1. Nguyên lý Bellman

Page 66: Slider BaiGiangTiengNoi

§Ó ¸p dông nguyªn lý tèi u cña Bellman vµo mét ph ¬ng tr×nh §Ó ¸p dông nguyªn lý tèi u cña Bellman vµo mét ph ¬ng tr×nh hµm thÝch hîp, ®Çu tiªn xÐt sù di chuyÓn tõ ®iÓm ban ®Çu hµm thÝch hîp, ®Çu tiªn xÐt sù di chuyÓn tõ ®iÓm ban ®Çu 1 tíi mét ®iÓm trung gian j víi mét hoÆc nhiÒu b íc di chuyÓn. 1 tíi mét ®iÓm trung gian j víi mét hoÆc nhiÒu b íc di chuyÓn. Hµm gi¸ thµnh cùc tiÓu ® îc x¸c ®Þnh bëi Hµm gi¸ thµnh cùc tiÓu ® îc x¸c ®Þnh bëi (1,j). Do viÖc di (1,j). Do viÖc di chuyÓn tõ ®iÓm j tíi ®iÓm i b»ng mét b íc sÏ cã hµm gi¸ chuyÓn tõ ®iÓm j tíi ®iÓm i b»ng mét b íc sÏ cã hµm gi¸ (j, i) (j, i) tham gia, chÝnh s¸ch tèi u x¸c ®Þnh víi ®iÓm trung gian j tíi i tham gia, chÝnh s¸ch tèi u x¸c ®Þnh víi ®iÓm trung gian j tíi i sÏ tho¶ m·n ph ¬ng tr×nh sau:sÏ tho¶ m·n ph ¬ng tr×nh sau:(1,i) = min [(1,i) = min [(1,j) + (1,j) + (j, i)](j, i)]

jj Tæng qu¸t ho¸ ph ¬ng tr×nh trªn ®Ó ®¹t ® îc mét ® êng dÉn Tæng qu¸t ho¸ ph ¬ng tr×nh trªn ®Ó ®¹t ® îc mét ® êng dÉn

tèi u cña c¸c b íc di chuyÓn vµ ® îc kÕt hîp gi¸ thµnh cùc tiÓu tèi u cña c¸c b íc di chuyÓn vµ ® îc kÕt hîp gi¸ thµnh cùc tiÓu tõ bÊt kú ®iÓm j tíi ®iÓm i kh¸c, chóng ta ® îc ph ¬ng tr×nh tõ bÊt kú ®iÓm j tíi ®iÓm i kh¸c, chóng ta ® îc ph ¬ng tr×nh sau:sau:(j, i) = min [(j, i) = min [(j, l) + (j, l) + (l, i)](l, i)]

llë ®©y ë ®©y (j, i) lµ gi¸ thµnh cùc tiÓu tõ j tíi i trong mét hoÆc (j, i) lµ gi¸ thµnh cùc tiÓu tõ j tíi i trong mét hoÆc nhiÒu b íc di chuyÓn.nhiÒu b íc di chuyÓn.

Ph ¬ng tr×nh trªn cã ngô ý lµ bÊt kú mét bé phËn, lµ mét d·y Ph ¬ng tr×nh trªn cã ngô ý lµ bÊt kú mét bé phËn, lµ mét d·y liªn tôc c¸c phÐp di chuyÓn cña ® êng tèi u tõ ®iÓm j tíi liªn tôc c¸c phÐp di chuyÓn cña ® êng tèi u tõ ®iÓm j tíi ®iÓm i còng lµ mét ® êng tèi u, vµ mäi ®iÓm trung gian còng ®iÓm i còng lµ mét ® êng tèi u, vµ mäi ®iÓm trung gian còng ph¶i lµ ®iÓm tèi u ®Ó liªn kÕt c¸c d·y tèi u bé phËn tr íc vµ ph¶i lµ ®iÓm tèi u ®Ó liªn kÕt c¸c d·y tèi u bé phËn tr íc vµ sau ®iÓm nµy.sau ®iÓm nµy.

Page 67: Slider BaiGiangTiengNoi

6.2. ứng dụng cho so khớp mẫu tiếng nói6.2. ứng dụng cho so khớp mẫu tiếng nói

Phương pháp đối sánh mẫu trong nhận dạng tiếng nói đo khoảng cách Phương pháp đối sánh mẫu trong nhận dạng tiếng nói đo khoảng cách giữa mẫu kiểm tra với tất cả các mẫu sẵn có rồi chọn ra mẫu có giữa mẫu kiểm tra với tất cả các mẫu sẵn có rồi chọn ra mẫu có khoảng cách nhỏ nhất và mẫu đó được coi là kết quả nhận dạng. Do khoảng cách nhỏ nhất và mẫu đó được coi là kết quả nhận dạng. Do vậy bài toán nhận dạng có thể qui về viêch tìm khoảng cách giữa hai vậy bài toán nhận dạng có thể qui về viêch tìm khoảng cách giữa hai tín hiệu. tín hiệu.

Sự đa dạng trong hành vi nói của con người. Các yếu tố như tốc độ nói, Sự đa dạng trong hành vi nói của con người. Các yếu tố như tốc độ nói, kiểu ngữ điệu,… phải không làm ảnh hưởng đến kết quả nhận dạng.kiểu ngữ điệu,… phải không làm ảnh hưởng đến kết quả nhận dạng.

quy hoạch động có thể được sử dụng để tìm đường đi so khớp phi tuyến quy hoạch động có thể được sử dụng để tìm đường đi so khớp phi tuyến giữa tín hiệu kiểm tra và các tín hiệu mẫu do vậy mà khoảng cách giữa giữa tín hiệu kiểm tra và các tín hiệu mẫu do vậy mà khoảng cách giữa

chúng được cực tiểuchúng được cực tiểu 6.2.1 Khoảng cách giữa 2 frame tiếng nói kích thước N6.2.1 Khoảng cách giữa 2 frame tiếng nói kích thước N

Page 68: Slider BaiGiangTiengNoi

So sánh sự khác nhau về thời gian trên từ “speech”

Page 69: Slider BaiGiangTiengNoi

6.2.2. Căn chỉnh thời gian tuyến tính6.2.2. Căn chỉnh thời gian tuyến tính

Gọi Gọi a = {a1 , a2 , ... , aI}a = {a1 , a2 , ... , aI} và và r = {r1 , r2 , ... , rJ}r = {r1 , r2 , ... , rJ} lần lượt là chuỗi véc tơ lần lượt là chuỗi véc tơ đặc trưng của tín hiệu 1 và tín hiệu 2 (chẳng hạn chuỗi các hệ số đặc trưng của tín hiệu 1 và tín hiệu 2 (chẳng hạn chuỗi các hệ số LPC). Ở đây và LPC). Ở đây và aiai là các véc tơ đặc trưng (hay còn gọi là các frame) là các véc tơ đặc trưng (hay còn gọi là các frame) p chiều với p chiều với i=1,...,I,i=1,...,I, j=1,...,Jj=1,...,J. Nói chúng do bản chất biến thiên về . Nói chúng do bản chất biến thiên về thời gian của tiếng nói nên độ dài của hai chuỗi véc tơ a và r khác thời gian của tiếng nói nên độ dài của hai chuỗi véc tơ a và r khác nhau nên I≠J. Sự chuẩn hóa về thời gian giữa a và r là sự mở rộng nhau nên I≠J. Sự chuẩn hóa về thời gian giữa a và r là sự mở rộng một cách tuyến tính mẫu tín hiệu ngắn hơn đạt tới độ dài của mẫu một cách tuyến tính mẫu tín hiệu ngắn hơn đạt tới độ dài của mẫu tín hiệu dài hơn. Nghĩa là ta phải thực hiện việc so khớp hai véc tơ tín hiệu dài hơn. Nghĩa là ta phải thực hiện việc so khớp hai véc tơ có chiều dài khác nhau. có chiều dài khác nhau.

Giả sử J<I. Kí hiệu D(r,a) là khoảng cách giữa hai mẫu tín hiệu r và a Giả sử J<I. Kí hiệu D(r,a) là khoảng cách giữa hai mẫu tín hiệu r và a và được tính như sau: và được tính như sau:

I

iijf ardarD

1' ),(),(

iI

Jj *'

Với df(rj,ai)à khoảng cách giữa hai frame rj , ai

Đặc điểm của phép căn chỉnh tuyến tính:

Không thể hiện được cấu trúc bộ phận của mẫu với các độ dài khác nhau (xem hình d)

Page 70: Slider BaiGiangTiengNoi

6.2.3. Căn chỉnh thời gian động6.2.3. Căn chỉnh thời gian động Phương pháp đối sánh mẫu trong nhận dạng tiếng nói đo khoảng Phương pháp đối sánh mẫu trong nhận dạng tiếng nói đo khoảng

cách giữa mẫu kiểm tra với tất cả các mẫu sẵn có rồi chọn ra mẫu cách giữa mẫu kiểm tra với tất cả các mẫu sẵn có rồi chọn ra mẫu có khoảng cách nhỏ nhất và mẫu đó được coi là kết quả nhận có khoảng cách nhỏ nhất và mẫu đó được coi là kết quả nhận dạng. Do vậy bài toán nhận dạng có thể qui về viêch tìm khoảng dạng. Do vậy bài toán nhận dạng có thể qui về viêch tìm khoảng cách giữa hai tín hiệu. Ta đã biết rằng thách thức của bài toán cách giữa hai tín hiệu. Ta đã biết rằng thách thức của bài toán chính là sự đa dạng trong hành vi nói của con người. Các yếu tố chính là sự đa dạng trong hành vi nói của con người. Các yếu tố như tốc độ nói, kiểu ngữ điệu,… phải không làm ảnh hưởng đến như tốc độ nói, kiểu ngữ điệu,… phải không làm ảnh hưởng đến kết quả nhận dạng. Hình (e) thể hiện sự căn chỉnh thời gian động kết quả nhận dạng. Hình (e) thể hiện sự căn chỉnh thời gian động (hay còn gọi là căn chỉnh thời gian phi tuyến) nghĩa là căn chỉnh (hay còn gọi là căn chỉnh thời gian phi tuyến) nghĩa là căn chỉnh trên từng đoạn con rồi khớp chúng lại. Chúng ta có thể thấy các trên từng đoạn con rồi khớp chúng lại. Chúng ta có thể thấy các phần của âm phần của âm s, ps, p và và chch của tín hiệu 1 được mở rộng, còn âm của tín hiệu 1 được mở rộng, còn âm iyiy thì thì được nén.được nén.

Page 71: Slider BaiGiangTiengNoi

Quy hoạch động trong kĩ thuật căn chỉnh thời gian độngQuy hoạch động trong kĩ thuật căn chỉnh thời gian động Quy hoạch động có thể được sử dụng để tìm đường đi so khớp phi Quy hoạch động có thể được sử dụng để tìm đường đi so khớp phi

tuyến giữa tín hiệu kiểm tra và các tín hiệu mẫu do vậy mà khoảng tuyến giữa tín hiệu kiểm tra và các tín hiệu mẫu do vậy mà khoảng cách giữa chúng được cực tiểu. Ứng dụng này của quy hoạch động cách giữa chúng được cực tiểu. Ứng dụng này của quy hoạch động trong nhận dạng tiếng nói được gọi là Căn chỉnh thời gian động trong nhận dạng tiếng nói được gọi là Căn chỉnh thời gian động (Dynamic Time Warping - DTW).(Dynamic Time Warping - DTW).

DTW cũng sử dụng lưới để định nghĩa không gian tìm kiếm trong đó a DTW cũng sử dụng lưới để định nghĩa không gian tìm kiếm trong đó a là mẫu tín hiệu cần kiểm tra, r là mẫu tín hiệu đã được lưu sẵn. Chúng là mẫu tín hiệu cần kiểm tra, r là mẫu tín hiệu đã được lưu sẵn. Chúng ta sẽ tìm kiếm đường đi tốt nhất dọc theo chỉ số của mẫu kiểm tra. ta sẽ tìm kiếm đường đi tốt nhất dọc theo chỉ số của mẫu kiểm tra.

Sự so khớp phi tuyến giữa các mẫu a và r như đã nói ở phần trước Sự so khớp phi tuyến giữa các mẫu a và r như đã nói ở phần trước được biểu diễn trên lưới điểm ở hình trên. Trên lưới này tín hiệu a được biểu diễn trên lưới điểm ở hình trên. Trên lưới này tín hiệu a nằm dọc theo trục nằm dọc theo trục ii, tín hiệu r nằm dọc theo trục , tín hiệu r nằm dọc theo trục jj. Mỗi giao điểm trên . Mỗi giao điểm trên lưới được định nghĩa như là một nút, nút (i,j) có nghĩa là so khớp lưới được định nghĩa như là một nút, nút (i,j) có nghĩa là so khớp frame i của tín hiệu a với frame j của tín hiệu r. Nút (0,0) được gọi là frame i của tín hiệu a với frame j của tín hiệu r. Nút (0,0) được gọi là nút gốc nơi mà tất cả các đường đều xuất phát từ đây.nút gốc nơi mà tất cả các đường đều xuất phát từ đây.

df(i,j)df(i,j) là khoảng cách giữa vec tơ đặc trưng là khoảng cách giữa vec tơ đặc trưng aiai với , khoảng cách này với , khoảng cách này còn được gọi là còn được gọi là khoảng cách cục bộkhoảng cách cục bộ. Ta định nghĩa giá tại nút (0,0) là : . Ta định nghĩa giá tại nút (0,0) là :

df(0,0) = 0df(0,0) = 0

Page 72: Slider BaiGiangTiengNoi

Một đường đi ở đây được định nghĩa bởi các cặp nút (ik-1, jk-1) -> (ik, jk). Một đường đi ở đây được định nghĩa bởi các cặp nút (ik-1, jk-1) -> (ik, jk). Một đường đi xuất phát từ nút (0,0) đến nút (ik, jk) có một giá toàn cục là giá Một đường đi xuất phát từ nút (0,0) đến nút (ik, jk) có một giá toàn cục là giá tích lũy từ điểm bắt đầu của đường đi cho đến khi gặp nút (ik, jk). Ta gọi giá tích lũy từ điểm bắt đầu của đường đi cho đến khi gặp nút (ik, jk). Ta gọi giá này là D(ik, jk) và được định nghĩa:này là D(ik, jk) và được định nghĩa:

D(ik,jk)=D(ik-1,jk-1) + df(ik,jk)D(ik,jk)=D(ik-1,jk-1) + df(ik,jk) Vì nút (0,0) là nút khởi đầu của tất cả các đường đi nên ta cho: D(0,0)=0Vì nút (0,0) là nút khởi đầu của tất cả các đường đi nên ta cho: D(0,0)=0 Rõ ràng là trên lưới quy hoạch động có nhiều đường đi xuất phát từ nút Rõ ràng là trên lưới quy hoạch động có nhiều đường đi xuất phát từ nút

(0,0) đến nút (ik,jk) với các giá toàn cục khác nhau. Như vậy bài toán có thể (0,0) đến nút (ik,jk) với các giá toàn cục khác nhau. Như vậy bài toán có thể được viết như là việc tìm kiếm một đường đi đầy đủ từ nút (0,0) tới nút đích được viết như là việc tìm kiếm một đường đi đầy đủ từ nút (0,0) tới nút đích (I,J) sao cho (I,J) sao cho giá toàn cụcgiá toàn cục là nhỏ nhất. Kí hiệu D*(ik,jk) là giá toàn cục nhỏ là nhỏ nhất. Kí hiệu D*(ik,jk) là giá toàn cục nhỏ nhất. Khi đó ta có:nhất. Khi đó ta có:

),(),(min),(* 11 kkfkkkk jidjiDjiD

k

mmmf jid

0

),(min

Các ràng buộc điểm đầu cuối (Endpoint Constraints) •frame đầu tiên của mẫu kiểm tra phải được so khớp với frame đầu tiên của mẫu sẵn có:

(i1 , j1) = (1 , 1)

Page 73: Slider BaiGiangTiengNoi

Ràng buộc điểm kết thúc: frame cuối của mẫu kiểm tra phải được Ràng buộc điểm kết thúc: frame cuối của mẫu kiểm tra phải được so khớp với frame cuối cùng của mẫu sẵn có:so khớp với frame cuối cùng của mẫu sẵn có:

(ik , jk) = (I , J)(ik , jk) = (I , J)

Ràng buộc đơn điệu và liên tụcjk - jk-1 ≥ 0 ik - ik-1 = 1

Hình trên là một ví dụ về so khớp không đều đặn. Từ “pest” chạy dọc theo trục x và “pets” dọc theo trục y. Tập âm vị của cả hai từ “pest” và ”pets” là {p, eh, s, t}. Nếu không có ràng buộc đều đặn hai tín hiệu này có thể so khớp như đường nét liền và như vậy đưa ra thông tin nhận dạng sai là hai mẫu này trùng nhau.

So khớp không đều đặn.

Page 74: Slider BaiGiangTiengNoi

So khớp không liên tục.

Từ “speak” chạy dọc theo trục x và “spaek” dọc theo trục y. Tập âm vị của cả hai từ “speak” và ”spaek” là {s, p, eh, a, k}. Nếu không có ràng buộc liên tục hai tín hiệu này có thể so khớp như đường nét liền và như vậy đưa ra thông tin nhận dạng sai là hai mẫu này trùng nhau.

Ràng buộc đường đi cục bộ (Local Constraints)

Các ràng buộc đường đi cục bộ được sử dụng để định ra đường đi hợp lệ giữa hai nút lưới bất kì. Nói cách khác, ràng buộc này sẽ là điều kiện để kiểm tra giữa hai nút (m,n) và (k,l) của lưới có tồn tại đường đi hay không

Page 75: Slider BaiGiangTiengNoi

Các loại ràng buộc đường đi cục bộ.

Ở loại (I) đường đi tuần tự diễn ra, với loại (II) đường đi ngang chỉ được thực hiện nêu trước đó đã có đường đi chéo, cũnh tương tự như vậy với loại (IV) nhưng đường đi ngang chỉ thực hiện nếu trước đó có hai đường đi chéo. Trong loại (III) sau hai đường đi ngang mới được phép có đường đi chéo Itakura đề xuất ra một ràng buộc đường cục bộ khác đáng chú ý ở hai điểm: không có hai đường đi ngang liên tục và tồn tại đường đi giữa hai nút (i-1,j-2) và (i,j). •Ràng buộc đường đi toàn cục (Global Constraints)

•Ràng buộc này được sử dụng để giới hạn phạm vi của nén hoặc mở rộng mẫu tín hiệu dọc theo chiều dài của trục thời gian. Sự biến thiên về tốc độ nói của người được cân nhắc để giới hạn trong một khoảng hợp lí, điều này có nghĩa là chúng ta có thể giới hạn việc tìm kiếm trong vùng

Page 76: Slider BaiGiangTiengNoi

tìm kiếm hợp lệ. Thay vì phải tìm kiếm trên toàn bộ lưới ta chỉ cần tìm kiếm các nút trên hình vùng hợp lệ. Ràng buộc đường đi toàn cục thường dùng được mô tả trong hình 10. ở đây vùng tìm kiếm hợp lệ được giới hạn bởi bốn đường thẳng có độ nghiêng (slope) là s hoặc 1/s. Ràng buộc đường đi toàn cục

Qua nghiên cứu, ứng với từng loại ràng buộc cục bộ mà s có thể nhận những giá trị sau:

Loại ràng buộc cục bộGiá trị s Giá trị 1/s

I ∞ 0

II 2 ½

III 3 1/3

IV 3/2 2/3

Page 77: Slider BaiGiangTiengNoi

6.2.4. Thuật toán căn chỉnh thời gian động6.2.4. Thuật toán căn chỉnh thời gian độngThuật toán được minh họa bằng ví dụ ở hình dưới Thuật toán được minh họa bằng ví dụ ở hình dưới

đây, ta sử dụng một ma trận thời gian-thời gian đây, ta sử dụng một ma trận thời gian-thời gian để mô tả trực quan cách căn chỉnh. Theo quy để mô tả trực quan cách căn chỉnh. Theo quy ước thì trục tung sẽ biểu diễn mẫu chuẩn ước thì trục tung sẽ biểu diễn mẫu chuẩn “SPEECH”, trục hoành biểu diễn mẫu nhận dạng “SPEECH”, trục hoành biểu diễn mẫu nhận dạng “SsPEEhH”. Trong ví dụ này mẫu nhận dạng “SsPEEhH”. Trong ví dụ này mẫu nhận dạng “SsPEEhH” là mẫu có nhiễu. ý tưởng ở đây là “SsPEEhH” là mẫu có nhiễu. ý tưởng ở đây là mẫu nhận dạng sẽ được so với tất cả các mẫumẫu nhận dạng sẽ được so với tất cả các mẫu

chuẩn thuộc cùng một lớp. Mẫu nhận dạng phù hợp chuẩn thuộc cùng một lớp. Mẫu nhận dạng phù hợp nhất là mẫu có khoảng cách đường căn chỉnh nhất là mẫu có khoảng cách đường căn chỉnh với mẫu chuẩn ngắn nhất. với mẫu chuẩn ngắn nhất.

ô (i,j) từ các ô (i-1,j-1), (i-1,j), (i,j-1) trong đó i là ô (i,j) từ các ô (i-1,j-1), (i-1,j), (i,j-1) trong đó i là cột, j là hàng.cột, j là hàng.

Biểu thức quy hoạch động của DTW đối xứng là Biểu thức quy hoạch động của DTW đối xứng là ::D(i,j)=min{D(i-1,j-1),D(i-1,j),D(i,j-1)} + d(i,j)D(i,j)=min{D(i-1,j-1),D(i-1,j),D(i,j-1)} + d(i,j)

với d(i,j) là khoảng cách cục bộ tại (i,j), D(i,j) là với d(i,j) là khoảng cách cục bộ tại (i,j), D(i,j) là

khoảng cách toàn cục tại (i,j).khoảng cách toàn cục tại (i,j).

“SPEECH” và mẫu nhận dạng có nhiễu “SsPEEhH”.

Page 78: Slider BaiGiangTiengNoi

Mô tả bằng ngôn ngữ C thuật toán DTWMô tả bằng ngôn ngữ C thuật toán DTWpredCol = (float *)malloc(sizeof(float)*templateframes);predCol = (float *)malloc(sizeof(float)*templateframes);curCol = (float *)malloc(sizeof(float)*templateframes);curCol = (float *)malloc(sizeof(float)*templateframes);predCol[0]=d(0,0);predCol[0]=d(0,0);for(p=1;p<templateframes;p++) for(p=1;p<templateframes;p++) predCol[p]=predCol[p-1]+d(0,p); predCol[p]=predCol[p-1]+d(0,p); for(i=1;i<patternframes;i++) for(i=1;i<patternframes;i++) { { curCol[0]=predCol[0]+d(i,0); curCol[0]=predCol[0]+d(i,0); for(j=1;j<templateframes;j++) for(j=1;j<templateframes;j++) curCol[j]=(min(predCol[j],predCol[j-1],curCol[j-1])+d(i,j)); curCol[j]=(min(predCol[j],predCol[j-1],curCol[j-1])+d(i,j)); free(predCol); free(predCol); predCol=curCol;predCol=curCol; curCol = (float *)malloc(sizeof(float)*templateframes); curCol = (float *)malloc(sizeof(float)*templateframes); }}lowestGlobal=predCol[templateframes-1]; lowestGlobal=predCol[templateframes-1];