tek ve Çok kvoof ses kÇvrf a Çf u için derin Ö r...

83
Hakan ErdoğaŶ Microsoft Tek ve Çok K aŶallı Ses K ayŶağı A yırŵa için Derin ÖğreŶŵe Boğazda Yapay ÖğreŶŵe İsŵail Arı Yaz Okulu 2018, 2-5 Temmuz 2018

Upload: others

Post on 22-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Hakan Erdoğa

Microsoft

Tek ve Çok Ka allı Ses Kay ağı Ayır a için Derin Öğre e

Boğazda Yapay Öğre e İs ail Arı Yaz Okulu 2018, 2-5 Temmuz 2018

Page 2: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Hakan Erdoğa Kısa Biyografi

• Mi rosoft ta araştır a ı olarak çalışıyor, 2016 da eri • Sa a ı Ü i ersitesi de öğreti üyesi, - arası • Mitsubishi Electric Research Labs (MERL) (sabatik), 2014- arası • IBM TJ Watso Araştır a Merkezi, 999- arası menejer: Michael

Picheny)

• Master ve Doktora: University of Michigan, 1993- 999 arası • Lisans: ODTÜ, 1989-1993

• Araştır a ala ları: Ko uş a si yali ayır a, ko uş a ta ı a, si yal işle e, biyometri

Page 3: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Ko uş a Pla ı

• Derin öğre e ye bir akış

• Ses ayır a problemleri ta ı ı • Sinyal Gösterimi

• Klasik yöntemler

• Tek ka allı sinyaller için ayır a yöntemleri • Tek ko uş a ı ve arkaplan gürültüsü

• Birden fazla ko uş a ıyı ayır a

• Çok ka allı sinyaller için ayır a yöntemleri • Uzamsal bilgi kulla ı ı

Page 4: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Derin Öğre e • Yapay zeka ı en önemli a açları da : Doğru kestirim yapabilme

• Son za a ları en popüler yapay zeka konusu: derin sinir ağları • Bir hesaplama kutusu: y=fW(x):

• x girdi verisi, y çıktı, w kutunun parametreleri (milyonlarca) • kutu içinde çok kat a lı hesaplamalar içerir

• Eğiti sırası da verilen her girdi x için bir hedef/etiket değer t ardır. • y=fW(x) değeri i hedef değer t ye yakı laştır ak isteriz. Sinir ağı ı w

parametrelerini ayarlayarak bunu aşara iliriz. • Gerçek kulla ı da hedef değer bilinmez ama kutuyu kullanarak y değeri i hesaplar

ve hedefi kestirebiliriz

• Otomatik türev alma ile w parametrelerini güncelleyen stokastik gradyan algorit ası ile eğiti yapılır

• Neden son zamanlarda ilgi arttı? • Daha fazla veri, daha fazla hesaplama, daha fazla insan kay ağı

Page 5: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Derin öğre e ile aşarı hikayeleri

• Ko uş a ta ı a

• İ gelerde nesne ta ı a

• İ ge altı a ta ı yazısı yazma

• Otomatik dilden dile tercüme

• Video larda nesne ta ı a, takip etme

• AlphaGo: Go oynayan yapay zeka

• Diğer birçok alanda potansiyel: tıp, tı i görüntüleme, iş dü yası için akıllı çözümler, a ukatlık, muhasebe işleri, otomatik soru cevaplama

Page 6: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Derin öğre e çalış ak için ne bilmeliyim?

• Programlama • Python (numpy ve scipy kütüphaneleri, araştır a için) • C ve C++ (endüstriyel son ürün için) • Bir derin öğre e kütüphanesi: ör eği pytorch, tensorflow, cntk, chainer, Knet, Dynet v.s.

• Calculus (türev, integral) • Özellikle çok değişke li calculus

• Geometri ve doğrusal cebir • Temel geometri, vektör, vektör uzayları, matrisler, tensörler, SVD

• Olasılık • Temel olasılık teorisi, maksimum olabilirlik, çok değişke li dağılı ları

• Optimizasyon/eniyileme • Temel optimizasyon bilgisi, gradyan i iş, Newton yöntemi

• Ses işle e için: Kar aşık sayılar, sinyal işle e

Page 7: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Sinir ağı – bir fonksiyon yakı sayı ı

w W parametrelerine sahip ağ

Giriş verisi

Ağ çıktısı

+ eğiti için bir sürü (x,t) verisi gerekir

x

y=fW(x)

(x,t) çiftleri eğiti için kulla ılır Ağ çıktısı y i t ye e kadar yakı olduğu u ölçecek L(fw(x),t) kayıp fonksiyonu ta ı la ır

Page 8: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Girdi, çıktı ve hedefler

• Girdi verisi genelde bir vektör olarak ifade edilir • İ ge i piksel değerleri • Ses sinyalinden çıkarıl ış Fourier dö üşü ü ta a lı öznitelikler

• Hedef değerleri: • Sı ıfla dır a problemi için sı ıf u arası, bir ta sayı

• Çoğu zaman 0/1 kodla ış vektör halinde

• Kestirim ( ağla ı ) problemleri için bir vektör ya da tensör • Bir vektör/ta sayı dizisi, bir vektör/ta sayı kümesi gibi farklı hedefler de

ta ı la a ilir

• Çıktı verisi: • Çıktı verisi de çoğu lukla bir vektördür ve kayıp fonksiyonu ile hedef değeri e

yakı sa aya çalışılır

Page 9: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Kayıp fonksiyonu

Örnek kayıp fo ksiyo ları • Sı ıfla dır a için çapraz entropi ya da maksimum olabilirlik • Sı ıfla dır a/ta ıla a için e teşe kay ı • Bağla ı problemleri için ortalama karesel hata • Diğer uygulamaya ağlı kayıp fo ksiyo ları • Önemli olan: kayıp fonksiyonunun ağı çıktısı a göre türevinin

ta ı lı ve de a lı ol asıdır

Page 10: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Eğiti - optimizasyon

• Sinir ağları ı eğit e problemini asıl çözeriz? • Kayıp fonksiyonu stokastik gradyan i iş yöntemi ile e düşükle ir

• Bağıl türevleri hesaplamak için geri-yayılı algorit ası kulla ılır

• Stokastik gradyan i iş algorit ası • Birçok versiyonu bulunur

• Momentum, RMSPROP, RPROP, ADAM etc.

• Stokastik gradyan i işte, ilk önce bir mini-yığı veri seçilir, bu veri üzerinden kayıp fonskiyonunun parametrelere göre türevleri G hesapla ır ve W:=W-mG olarak parametreler güncellenir

• ye öğre e katsayısı denilir ve SGD için önemli bir parametredir

Page 11: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Gri’ye övgü

• Sinir ağları ı bir özelliği: • Hata yap aları, ama hata yaptıkları da dahi doğru karar verdikleri zaman

kadar emin ol aları • Yani kendi çıktısı a bakarak bir ağı erdiği kararı doğru olup ol adığı ı

anlamak pek mümkün olmuyor

• Ay ı insan beyni gibi:

Yanny mi Laurel ı? Elbise altı rengi mi mavi mi?

Page 12: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Ne yapabiliriz?

• Eğitirke ya lış payı ırak ak • Hedef etiket değerleri i 0-1 olarak kodlamak yerine diğer alternatiflere de

düşük de olsa olasılık ata ır • İ sa a denk ko uş a ta ı a yapan sistemde kulla ıldı

• Öğret e -öğre i modelleri • Etiket değeri i 0-1 kesin hedef olarak kullanmak yerine iyi eğitil iş aşka bir

modelin çıktısı ı yu uşak-hedef olarak kullanmak • Ko uş a ta ı ada iyi eğitil iş temiz ses modellerinin çıktıları ı gürültülü ses

modeli eğit ek için yu uşak hedef olarak kullanmak

• Daha doğru karar vermek için • Siyah/beyaz değil gri!

Page 13: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Öğret e -öğre i modelinin ko uş a ta ı ada bir uygula ası • Çok iyi eğitil iş temiz ko uş a modelimiz var

• Temiz ve yakı mikrofonla ko uş aları çok iyi ta ıyor • Bu modelleri yüzbinlerce saat veriden eğit ek bazen aylar alıyor (Birden fazla GPU kullanarak)

• Gürültülü ve uzak mikrofon kulla dığı ızda da iyi çalışa bir model (gürbüz model) elde etmek istiyoruz • Temiz ses modeli uzak mikrofonla kayıt yapıl ışsa ve gürültü varken iyi çalış ıyor

• Temiz sesi alıyoruz ve temiz ko uş a modelinden geçiriyoruz, sonra temiz sesi uzak mikrofon etkisi ile benzetim yapıyor ve gürültü ekliyoruz

• Gürbüz modele girdi olarak e zetil iş uzak mikrofon ve gürültü ekle iş sesi veriyoruz ve temiz modelin çıktısı ile ay ı çıktıyı vermesini istiyoruz • Temiz model öğret e , gürbüz model öğre i oluyor

• Bu durumda elimizdeki temiz sesin yazıla dır ası olmadan da eğiti yapabiliyoruz

• Bu tarz eğiti Microsoft şirketi için oldukça aşarılı sonuçlar verdi ve uzak mikrofon modelinde kulla ıldı [Li et.al 2018]

Page 14: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Kokteyl partisi problemi

• İki kulağı ız ol ası nedeniyle mi? • Sesin yön tayini ve sese odaklanma yete eği

Page 15: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Ses ayır a problemleri

• Kokteyl parti problemini detayla dıralı • Uygulama senaryosuna göre farklı amaçlar olabilir

• Tek (dominant) ko uş a ı ı sesini arka plan seslerinden ayır ak • Ko uş a iyileştir e

• Ko uş ayı gürültüden arı dır ak

• Ko uş a ya da şarkı söyleme ile üziği ayır ak

• Birden fazla ko uş a ı ı ko uş aları ı birbirinden ayır ak • Ay ı anda ko uşa lar ya da ko uş aları ı bir kıs ı üstüste gelen ko uş a ılar

• Birden fazla ko uş a ı arası da istenen tek bir ko uş a ı ı sesini çıkar ak

• İş topla tıları gerçekçi bir senaryo olabilir

Page 16: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Speech Background

Mixture

Speech/background5

Separation

Speech5estimateBackground5audio

estimate

+

=

Page 17: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Sensör tipine göre

• Tek ka allı: • Kayıt için tek mikrofon kulla ıldığı da • Sadece spektro-temporal bilgi (zaman-frekans bilgisi) kulla ıla ilir

• Çok ka allı: • Kayıt için bir mikrofon dizisi kulla ıldığı da (birden fazla mikrofon) • Mikrofonlar tek bir cihaz üzerinde olabilir (ör eği Alexa, Google home,

invoke) • Ya da farklı cihazlar üzerinde olabilir – senkron problemi • Hem spektro-temporal hem de uzamsal bilgi kulla ıla ilir • Mikrofon dizileri ile alı a sinyallere bakarak sesin hangi yönden geldiği

kestirilebilir

Page 18: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Sinyal gösterimi • Ses sinyalleri tek boyutlu sinyallerdir. Zamana ağlı olarak değişe sinyalin seviyesi

havadaki ses dalgası ı ası ç değeri ile ora tılıdır. Mikrofon, mekanik titreşi i ( ası ç) elektrik dalgası a çevirir ve so rası da zamanda örneklenerek kesik za a lı sinyal elde edilir.

• Spektro-temporal gösterim: kısa-za a lı Fourier dö üşü ü ve spektrogram

• Sinyalin belli bir pencere içerisinde Fourier dö üşü ü alı ır ve analiz çerçevesi kaydırılarak bu işle tekrar edilir:

Page 19: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Sinyal gösterimi: spektrogram=STFT ge liği

Page 20: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Tek ka allı ko uş ayı arka plandan ayır a

• y, s, n= karış ış sinyal, ko uş a sinyali, gürültü sinyali

• Kısa za a lı Fourier dö üşü ü (STFT) uzayı da

• Çoğu zaman yapıla varsayı :

• Problem: Karış ış sinyalin STFT si Y eril işke , ko uş a sinyali S i kestirimi

• Elimizde eğiti verisi olarak temiz ko uş a ve gürültü sinyallerinden elde edil iş karışı lar var

Page 21: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Gürültülü ve temiz ko uş a ör eği

Time (s)

Fre

qu

ency

(k

Hz)

0 1.2 2.4 3.6 4.8 6 7.2 8.4

8

6

4

2

0

Time (s)

Fre

qu

ency

(k

Hz)

0 1.2 2.4 3.6 4.8 6 7.2 8.4

8

6

4

2

0

Page 22: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Genlik ve faz

• Genlik ve fazı ikisini de mi kestirelim?

• Bazı arsayı lar altı da fazı ı en iyi kestirimi karışık sinyalin fazıdır [Ephraim&Malah 1984, Cohen&Berdugo 2001]

• Sadece ge liği kestirimi yeterli performans sağlar

• Faz kestirimi sonraki çalış alara ırakıl ıştır

Page 23: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Klasik yöntemler

STFT

ISTFT

Gürültü arya sı kestirimi

Çarpan/maske kestirimi

• Gürültünün durağa olduğu arsayılır ve gürültü varyans parametresi ko uş a olmayan bölümlerden tahmin edilir

• Maske parametresi 0 ve 1 arası dadır.

Page 24: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Klasik yöntemlerden OMLSA algorit ası ı perfor a sı

Time (s)

Fre

qu

ency

(k

Hz)

0 1.2 2.4 3.6 4.8 6 7.2 8.4

8

6

4

2

0

• OMLSA algorit ası çıktısı • Klasik yöntemler iyi çalış ıyor çünkü gürültü durağa değil

Page 25: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Otomatik öğre e yöntemleri

• Ses iyileştir e yerine genelde kaynak ayrıştır a terimi kulla ılır

• Büyük veri birçok zaman elimizde var. Eldeki farklı ses kay akları ı karıştıra iliriz. Otomatik öğre e kullanabiliriz.

• Otomatik öğre e yöntemleri • Model ta a lı

• Negatif olmayan matris ayrıştır a (NMF) ve benzer teknikler • Diğer olasılıksal teknikler

• Sinir ağları • Çok kat a lı perseptron (MLP) ya da diğer ismi ile (ileri beslemeli) derin sinir ağı • Yinelgen sinir ağları (RNN) • Uzun kısa-za a lı-bellek yinelgen ağlar (LSTM-RNN)

Page 26: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Negatif olmayan matris ayrıştır a (NMF)

50 100 150 200 250 300 350 400

50

100

150

200

250

20 40 60 80 100 120

50

100

150

200

250

50 100 150 200 250 300 350 400

20

40

60

80

100

120

Spectrogram (V) Dictionary (B)

Gains (G)

[Lee&Seung 2001, Smaragdis&Brown 2003]

26

Page 27: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

• Eğitilen sözlük matrisi (dictionary) kaynak sinyalinin özeti olarak kullanılır [Schmidt&Olsson 2006, Virtanen&Cemgil&Godsill 2008, Grais&Erdogan 2011]

50 100 150 200 250 300 350 400

50

100

150

200

250

20 40 60 80 100 120

50

100

150

200

250

50 100 150 200 250 300 350 400

20

40

60

80

100

120

Spectrogram (Sz )

Dictionary

matrix

(Bz )

Gains (Gz )

NMF ile kaynak modelleme

Page 28: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

20 40 60 80 100 120

50

100

150

200

250

50 100 150 200 250 300 350 400

20

40

60

80

100

120

Mixed signal

Spectrogram Y

B2

Gains (G1)

20 40 60 80 100 120

50

100

150

200

250

B1

50 100 150 200 250 300 350 400

20

40

60

80

100

120

Gains(G2)

NMF ile kaynak ayır a

Page 29: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

NMF Maske kestirimi

• Her kaynak için kestirilen spektra kulla ılarak bir maske kestirilebilir [Grais&Erdogan 2011].

• Farklı p değerleri maskenin keski liği i etkiler

• p>1 ise dominant kaynak daha da etki leşir. • p sonsuza gittiği de 0-1 maskesi elde edilir

29

Page 30: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

NMF aşarı ı

Time (s)

Fre

qu

ency

(k

Hz)

0 1.2 2.4 3.6 4.8 6 7.2 8.4

8

6

4

2

0

NMF yöntemi sonucu

Page 31: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

• Sinir ağları ile maske kestirimi yapıla ilir ya da spektral sinyal kestirilebilir

• İkili maske (0 ya da 1) kestirimi yapılırsa problem her spektro-temporal katsayı için ikili bir sı ıfla dır a problemine döner [Wang&Wang 2013]

• Yumuşak maske kestirimi ya da direkt kaynak sinyalin spektral gösteriminin kestirimi ise bir ağla ı problemidir [Xu&Du&Dai&Lee 2014, Huang&Kim&Johnson&Smaragdis 2014, Weninger&Hershey&LeRoux&Schuller 2014, Wang&Narayanan&Wang 2014]

Derin sinir ağları ile ses temizleme ve kaynak ayır a

Page 32: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Ko uş a iyileştir e ve kaynak ayır a için derin öğre e kulla ı ı

w ağ

Gürültülü veri

Kestiril iş sinyal ya da maske

+ birçok veri ile eğiti

ya da

Page 33: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Sinir ağları ı içine hızlı a akalı

Wikipedia da alı tı

Page 34: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

İleri beslemeli sinir ağı, tek katman

• Afin bir dö üşü : Doğrusal dö üşü artı kaydır a • So rası da doğrusal olmayan bir koordinatsal dö üşü • Sigmoid fonksiyonu • Tanh • Rektifiye doğrusal (RELU) • Diğerleri

Derin öğre e için daha fazla katman gerekir ve h vektörel değeri benzeri katmanlardan geçirilir (MLP)

Page 35: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Dizisel veri için yinelgen sinir ağları (RNN)

Page 36: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

İki yönlü RNN

Page 37: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

RNN’ler neden/ asıl çalışır

• Tarihsel (ve gelecekteki) verileri hatırlaya ilirler ve t a ı da geç işe ve gele eğe bakarak karar verebilirler

• Bunu teorik olarak yap aları beklenirken, RNN leri eğit ek pratikte zordur

• Pratikte eğiti için kulla ıla geri-yayılı algorit ası ile elde edilen gradyanlar zaman ilerledikçe hızla yükselir ya da hızla azalır

• Bu da RNN leri eğitil esi i zorlaştırır

• Bu sorunlardan etkilenmeyen uzun kısa-süreli bellek (LSTM) yinelemeli yapısı geliştiril iştir [Hochreiter&Schmidhuber 1997]

Page 38: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Uzun kısa-süreli-bellek (LSTM) hafıza hücresi

[Weninger et.al. 2014] alı tı.

Page 39: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

39

LSTM Hesapla aları

Page 40: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Ağı girdisi ne ol alı?

• Literatürde karış ış sinyalin spektrogra ı da türe iş öznitelikler girdi olarak de e iştir

• Log-mel-filtre- a kası öznitelikleri iyi sonuçlar er iştir

• Ko uş a ta ı a için 40 mel-filtre katsayısı kulla ılırke , ayır a problemi için 100 katsayı daha iyi sonuç er iştir [Weninger&Hershey&LeRoux&Schuller 2014]

• MLP/DNN için her çerçevenin ko şu çerçevelerinden gelen öznitelikler ardarda eklenerek ağla bilgisi ekle iş olur.

• RNN/LSTM için ise her çerçevenin kendisi yeterlidir çünkü yinelgen ağlar dizayn iti arıyla ağla ı dikkate alır

40

Page 41: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Kayıp fonksiyonu ne olabilir?

• Literatürde denenen kayıp fo ksiyo ları ı hemen hepsini şu şekilde yazabiliriz

• Karesel hata (çıktı sinyalin SNR ı ile ilgili) [Huang&Kim&Johnson&Smaragdis 2014, Weninger&Hershey&LeRoux&Schuller 2014]

• Log-spektral mesafe (LSD): log-spektra kestirilir ve gerçek log-spektra ile farkı alı ır [Xu&Du&Dai&Lee 2014]

41

Page 42: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Maske mi yoksa spektrum mu?

• Ağ neyi kestirmeli?

• Spektrumu kestirirse: (SP)

• Maskeyi kestirirse (MA)

• Maskeyi kestirip hatayı spektru da ta ı larsak (MSA)

[Weninger&Hershey&LeRoux&Schuller 2014] found MSA is better than MA, [Wang&Narayanan&Wang 2014] found MSA is better than SP

42

Page 43: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Neden maskeyi kestirmeli?

• Maske değeri [0,1] arası dadır ve çıktı kat a ı da sigmoid fonksiyonu kulla ıla ilir

• Öte yandan direkt spektra kestirimi için sigmoid kulla a ayız, doğrusal ya da rektifiye doğrusal çıktı fonksiyonu gerekir

• Sinyale gürültü ekle e işse, maskenin değeri 1 ola aktır, ve girdi sinyalini çıktıda tekrarlamaya gerek kalmayacak ve daha kolayca 1 değeri kestirilebilecektir

43

Page 44: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

temiz

Ideal maske [0,1] arasi

gürültülü

44

Page 45: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Hangi ideal maske?

y

s

n Θ

45

Page 46: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

46

Page 47: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

İdeal maske aşarı ları

Faza duyarlı maske (Phase-sensitive filter (PSF)) [0,1] arası da sı ırla dırılsa bile daha iyi sonuç veriyor

47

Page 48: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Spectrograms obtained using oracle masks

Time (s)

Fre

quen

cy (

kH

z)

0 1.2 2.4 3.6 4.8 6 7.2 8.4

8

6

4

2

0

Time (s)

Fre

quen

cy (

kH

z)

0 1.2 2.4 3.6 4.8 6 7.2 8.4

8

6

4

2

0

Time (s)

Fre

quen

cy (

kH

z)

0 1.2 2.4 3.6 4.8 6 7.2 8.4

8

6

4

2

0

Time (s)

Fre

quen

cy (

kH

z)

0 1.2 2.4 3.6 4.8 6 7.2 8.4

8

6

4

2

0

noisy clean

IBM [SDR=8.95 dB] PSF [SDR=11.86 dB]

09.2016 48

Page 49: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

PSA kayıp fonksiyonu ile eğitildiği de, ağ, eğer girdi verisi gürültülü ise kendi çıktı maskesini doğru miktarda küçültmeyi öğre iyor ve bu daha iyi sonuç veriyor

49

Page 50: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Spektrogramlar ve işle iş sesler

Time (s)

Fre

qu

ency

(k

Hz)

0 1.2 2.4 3.6 4.8 6 7.2 8.4

8

6

4

2

0

LSTM-MSA [SDR=8.26]

Time (s)

Fre

qu

ency

(k

Hz)

0 1.2 2.4 3.6 4.8 6 7.2 8.4

8

6

4

2

0

BLSTM-PSA-Align [SDR=10.51]

50

Page 51: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

DNN-HMM ko uş a ta ı a iki ka allı CHiME-2 verisi kulla ıldığı da

Iyileştirme yöntemi WER Dev WER Eval

BF 25.64 21.12

2ch-NMF 25.13 19.46

BF-LSTM-MSA 19.03 14.82

BF-LSTM-PSA 19.20 14.63

BF-BLSTM-MSA 18.35 14.47

BF+SSA-BLSTM-MSA 18.41 14.25

BF+SSA-BLSTM-PSA 18.19 14.24

BF+ENH+SSA-BLSTM-MSA 18.16 13.95

BF+ENH+SSA-BLSTM-PSA 18.28 13.95

DNN ta ı a modeli hedefleri temiz ko uş a ile hizalayarak elde edil iştir

Dizisel eğiti ile eğitil iş modeller kulla ıl ıştır

51

Page 52: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Birden fazla ko uş a ı ı seslerini ayır a

• İki ko uş a ı için eğitile ek sinir ağı ı iki çıktısı ol alıdır

• Fakat hangi ko uş a ı ı hangi çıktıda yer ala ağı ı belirlemek mümkün görünmemektedir, özellikle ko uş a ılar ile ilgili ön bilgi yoksa ve herhangi bir şekilde kategorize edilemiyorlarsa (kör ayır a problemi)

• Ör eği A ve B ko uş a ısı ko uşurke A ko uş a ısı ı sesi birinci çıktıda yer alırke , B ikincide yer alsı diyelim. Şi di A ve C ko uş a ısı ı karışı ı da ve B ve C ko uş a ısı ı karışı ı da hangi ko uş a ı ı hangi çıktıda yer ala ağı tutarlı olarak belirlenemez.

• Orjinal fikir: Eğitirke çıktılara hangi kay ağı yerleştirile eği e ırakalı sinir ağı kendisi karar versin!

• Yani modeli eğitirke her A ve B karışı ı da çıktı sırala aları ı hepsi göz önüne alı ır ve en düşük kay ı veren sırala a seçilir

• Sırala ada ağı sız eğiti (permutation invariant training) bu şekilde kör ayır a sorununu çözer. [Yu, Kolbaek, Tan and Jensen, 2017]

Page 53: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Sırala ada ağı sız eğiti ve diğerleri

• Birden fazla ko uş a ı ı kör ayrı ı için ayrı a aşağıdaki yöntemler de ardır • Derin kümeleme (deep clustering)

• Derin çekici ağı (deep attractor net)

• PIT tek iği daha basit ve a laşılır bir tekniktir ve aşarı ı diğerleri e yakı dır. • u-PIT maske uzayı kayıp fonksiyonu şöyle yazıla ilir:

Page 54: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Çok ka allı sinyallerden kaynak ayır a

Şi dilik tek ko uş a ı arsayalı

Page 55: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Tek ve Çok Kanal Farkı

55

• Tek kanal • Karışı sinyalinde kay akları kendi özellikleri dışı da bilgi yok • Kay akları zaman-frekans (spektro-temporal) bilgilerine

dayanarak ayır a yapıla ilir • Uzamsal bilgi bulunmaz

• Çok ka allı • Yön ve derinlik a laşıla ilir (insan kulağı iki tane) • Sinyallerin geliş yönü kestirilebilir • Hüzme oluştur a teknikleri ile belli yönlere akıla ilir • Uzamsal öznitelikler kulla ıla ilir • Ek olarak birden fazla kanaldan gelen zaman-frekans bilgileri de

kulla ıla ilir

Page 56: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Çok mikrofonlu ya sı asız ortam

56

Varsayı lar: nokta kaynak, nokta alı ılar, ya sı a yok, sabit kaynak ve alı ılar, doğrusallık

Page 57: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

57

Varsayı lar: sabit kaynak ve alı ılar, doğrusallık

Ya sı alı ortam

Page 58: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

• Ya sı asız (anechoic)

58

S t nin mikrofon i üzerinde uzamsal imgesi

• Ya sı alı (reverberated)

Alı a sinyal modeli

Page 59: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Klasik yöntem: Ağırlıklı geciktir-ve-topla hüzme yapı ısı

59

• Ağırlıklı geciktir ve topla hüzme yapı ısı- diğer adı beamformit [Anguera&Wooters&Hernando 2007] • Bir referans mikrofon seçer • Referans mikrofona göre her bir mikrofonun görece gecikme farkları ı hesaplar • Gecikme farkları (TDOA) GCC-PHAT algorit ası ile bulunabilir (çapraz-korelasyondaki

tepeler kulla ılarak) • Ya sı asız modelle ilgilidir

• Her zaman loğu için birden fazla aday gecikme bulunur sonra bloklar arası da tutarlı gecikme seçmek için Viterbi algorit ası kulla ılır

Page 60: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Çok ka allı STFT ve uzamsal filtreleme

60

f

t

mic

• Çok ka allı veri 3 boyutlu tensör olarak görülür

• Uzamsal filtreleme ya da hüzme yapma: • Filtrele-ve-topla hüzme yapı ısı • STFT uzayı da, çarp-ve-topla (mikrofon boyutu boyunca)

Page 61: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

MVDR hüzme yapı ısı denklemi

• Denklem [Souden&Benesty&Affes 2010, Benesty&Chen&Huang 2008]

• Çok ka allı kar aşık STFT yi düşü eli – bir önceki ya sı • Her f değeri için, çarp ve topla işle i ile sonuç elde edilir

61

Amacımız uzamsal filtreler olan hi(f) değerlerini bularak kaynak

yönünde hüzme oluşturma yani kaynağa doğru bakarak diğer kaynakları baskılamadır

Page 62: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

MVDR denklemi için ta ı lar

62

Page 63: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

MVDR kriteri

63

Page 64: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

MVDR çözüm

64

Page 65: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Ge elleş iş özvektör hüzme yapı ısı

65

Page 66: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Maske kullanarak uzamsal kovaryans bulma

66

Page 67: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Spektro-temporal maske kulla ı ı aslı da yeni değil

67

• Daha önceki çalış alarda da • Ko uş a olma ihtimali = maske = spektral filtre

• Birçok çalış a, maskeleri spektral-uzamsal öbekleme ile bulur • Mikrofonlar arası seviye ve faz farkları kullanan (MESSL

[Mandel&Weiss&Ellis 2010])

• Kar aşık Gauss modeli ile zaman-frekans kutu ukları ı öbeklenmesi [Higuchi&Ito&Yoshioka&Nakatani 2016]

• Direkt olarak zaman-frekans kutu ukları ı öbeklenmesi [Sawada&Araki&Makino 2011] [Ito&Araki&Nakatani 2013]

• Watson karışı modeli [Tran-Vu&Haeb-Umbach 2010]

• Derin öğre e ile maske çıkar a yukarıdaki diğer yöntemlerin alternatifidir ve uzamsal bilgi kullanan diğerleri ile karşılaştırıl alıdır

Page 68: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Tek ka allı maske kestirim ağları ı eğit ek

• Önceki kısı larda bu tür ağları eğit e i yolları a ak ıştık • ideal maske (IRM ya da IBM) hedef yapılarak eğitile ilir

• Sinyal uzayı da kayıp fonksiyonu kulla ıla ilir

• Biz de MSA kayıp fonksiyonu ile eğittik [Weninger et.al. 2014, Erdogan et.al. 2015]

• Girdi öznitelikler 100 log-Mel-filtre- a kası öznitelikleri • 25 ms pencere uzu luğu

• 10 ms çerçeve kaydır a

• 2 kat a lı LSTM modeli her biri 256 saklı oğu içerir

• CHiME-3 benzetim verisinin 5. ka alı kulla ılarak eğitildi

68

Page 69: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

MVDR için uzamsal kovaryans elde etme

69

• Gürültülü karışı sinyalinin ko arya sı direkt olarak veriden elde edilir

• Sadece gürültü sinyalinin ko arya sı ise askele iş veriden şu şekilde elde edilir:

Page 70: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Ses sinyalinin uzamsal kovarya sı

• Ses sinyalinin uzamsal ko arya sı da aşağıdaki basit işle ile elde edilebilir

• Ya da hem ses hem de gürültü için iki farklı maske bulunarak ses ve gürültü ko arya sları elde edilebilir, mesela [Heynmann&Drude&Haeb-Umbach 2016]

70

Page 71: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Maskeleme stratejileri

• Edge mask: cümlenin ilk ve son 0.5 saniyelik kıs ı ı gürültü kabul etmek

• Single mask: her kanaldan elde edilen maskeyi aksi u ları ı alarak irleştir ek (ortalama almak da yakı sonuç verdi)

• Multiple masks: her kanal kendi maskesini kulla ır

• (tercihen) post-masking: (sonradan maskeleme) • Direct: referans ka alı maskesini uygulama

• Minfloor: maske ile 0.3 değeri i maksimumunu alarak sert sıfırlayı ı maskelemeye engel olacak şekilde maskelemek

71

Page 72: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Yöntemin genel şe ası

72

Single channel enhancement Single channel

enhancement

Single channel enhancement

Mask

Mask

Use masks after combining or

directly

MVDR beamformer Post mask

Input signals Output signal

Page 73: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Deneyler

• Deneyleri CHiME-3 geliştir e ve değerle dir e verilerinde yaptık

• Maske kestirimi ağı tek kanaldan eğitildi • CHiME-3 verisi bir tablet üzerinde 6 mikrofon ile kaydedil iştir. 5

mikrofon ön tarafta, 1 tanesi arka taraftadır. • Bir okuyucu cümleleri gürültülü ortamlarda okur. Kafe, cadde, otobüs

ve yaya bölgesi gibi dört farklı gürültülü ortam.

• Ses sinyallerini maske-ta a lı MVDR algorit ası ile iyileştirdik ve sonra SDR ve PESQ ölçümleri ile aşarı ı ölçtük.

73

Page 74: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Sonuçlar – SDR dB, CHiME-3 geliştir e ve değerle dir e kümeleri

74

Page 75: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Sonuçlar– PESQ, CHiME-3 geliştir e ve değerle dir e verileri

75

Page 76: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Çok ka allı PIT ile ko uş a ayır a

• Birden fazla ko uş a ı varsa

• Ay ı tek ka allı PIT de olduğu gibi ko uş a ı sayısı kadar maske kestirilir ve sırala ada ağı sız bir kayıp fonksiyonu kulla ılır

• Sonra maskeler kulla ılarak maske-ta a lı MVDR hüzme yapı ı ile her ko uşu u için hüzme yapılır

• Çok ka allı PIT için spektral öznitelik ya ı da çok ka allı sinyalden elde edilen mikrofonlar arası faz farkları (inter-channel phase - IPD) da öznitelik olarak kulla ılır. Bu öznitelik uzamsal bilgi içerir. [Yoshioka&Erdogan 2018]

Page 77: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Çok ka allı PIT ses ayır a gerçek veri ör eği

Karış ış sinyal (mikrofon 0)

Ayrıl ış sinyal 0

Ayrıl ış sinyal 1

Page 78: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

Sonuçlar

• Ses kay ağı ayrı ı konusunda son senelerde çok geliş eler oldu

• Son ICASSP ko fera sı da yaklaşık 6 oturum bu konuda idi

• Kokteyl parti problemini çözmeye oldukça yaklaşıyoruz

• İ sa lık problemleri çözdükçe daha zor ve çözül e iş problemlere yöneliyor • Tek ko uş a ıyı a ladık da sıra birden fazlası a ı geldi?

• Genel yapay zeka da daha çok uzağız ve oraya giderken çöze eği iz çok fazla problem var

Page 79: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

DİNLEDİĞİNİZ İÇİN ÇOK TEŞEKKÜRLER

SORULARINIZ?

Page 80: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

References-1 • [Ephraim&Malah 1984] Ephraim, Yariv, and David Malah. "Speech enhancement using a minimum-mean square

error short-time spectral amplitude estimator." Acoustics, Speech and Signal Processing, IEEE Transactions on 32.6 (1984): 1109-1121.

• [Hochreiter&Schmidhuber 1997] Hochreiter, Sepp, and Jürgen Schmidhuber. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.

• [Cohen&Berdugo 2001] Cohen, Israel. "Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging." Speech and Audio Processing, IEEE Transactions on 11.5 (2003): 466-475.

• [Lee&Seung 2001] Lee, Daniel D., and H. Sebastian Seung. "Algorithms for non-negative matrix factorization." Advances in neural information processing systems. 2001.

• [Smaragdis&Brown 2003] Smaragdis, Paris, and Judith C. Brown. "Non-negative matrix factorization for polyphonic music transcription." Applications of Signal Processing to Audio and Acoustics, 2003 IEEE Workshop on.. IEEE, 2003.

• [Schmidt&Olsson 2006] Schmidt, Mikkel, and Rasmus Olsson. "Single-channel speech separation using sparse non-negative matrix factorization." (2006).

• [Vincent&Gribonval&Fevotte 2006] E Vincent, R Gribonval, C Févotte, Perfor a e easure e t i li d audio sour e separatio , Audio, Spee h, a d La guage Pro essi g, IEEE Tra sa tio s o , -1469, 2006.

• [Hu&Loizou 2008] Hu, Yi, and Philipos C. Loizou. "Evaluation of objective quality measures for speech enhancement." Audio, Speech, and Language Processing, IEEE Transactions on 16.1 (2008): 229-238.

• [Virtanen&Cemgil&Godsill 2008] Virtanen, Tuomas, Ali Taylan Cemgil, and Simon Godsill. "Bayesian extensions to non-negative matrix factorisation for audio signal modelling." Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on. IEEE, 2008.

08.2015 80

Page 81: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

References-2

• [Boldt&Ellis 2009] Boldt, Jesper B., and Daniel PW Ellis. "A simple correlation-based model of intelligibility for nonlinear speech enhancement and separation." EUSIPCO 2009: 17th European Signal Processing Conference, August 24-28, 2009, Glasgow, Scotland. European Association for Signal, Speech, and Image Processing, 2009.

• [Mohamed&Dahl&Hinton 2009] Abdel-rahman Moha ed, George E. Dahl, Geoffrey E. Hi to . Deep Belief Net orks for Pho e Re og itio . NIPS Workshop on Deep Learning for Speech Recognition and Related Applications, 2009.

• [Hershey&Rennie&Olsen&Kristjansson 2010] Hershey, J. R., Rennie, S. J., Olsen, P. A., & Kristjansson, T. T. Super-human multi-talker speech re og itio : A graphi al odeli g approa h. Computer Speech & Language, 24(1), 45-66, 2010.

• [Grais&Erdogan 2011] Grais, Emad M., and Hakan Erdogan. "Single channel speech music separation using nonnegative matrix factorization and spectral masks." Digital Signal Processing (DSP), 2011 17th International Conference on. IEEE, 2011.

• [Yu&Deng 2011] Yu, Dong, and Li Deng. "Deep learning and its applications to signal and information processing [exploratory dsp]." Signal Processing Magazine, IEEE 28.1 (2011): 145-154.

• [Taal&Hendriks&Heusdens&Jensen 2011] Taal, Cees H., et al. "An algorithm for intelligibility prediction of time–frequency weighted noisy speech." Audio, Speech, and Language Processing, IEEE Transactions on 19.7 (2011): 2125-2136.

• [Wang&Wang 2013] Wang, Yuxuan, and DeLiang Wang. "Towards scaling up classification-based speech separation." Audio, Speech, and Language Processing, IEEE Transactions on 21.7 (2013): 1381-1390.

• [Huang&Kim&Johnson&Smaragdis 2014] Po-Sen Huang; Minje Kim; Hasegawa-Johnson, M.; Smaragdis, P., "Deep learning for monaural speech separation," Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on , vol., no., pp.1562,1566, 4-9 May 2014.

08.2015 81

Page 82: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

References-3

• [Grais&Sen&Erdogan 2014] Grais, E.M.; Sen, M.U.; Erdogan, H., "Deep neural networks for single channel source separation," Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on , vol., no., pp.3734,3738, 4-9 May 2014.

• [Weninger&Hershey&LeRoux&Schuller 2014] Felix Weninger, Jonathan Le Roux, John R. Hershey, Björn Schuller, "Discriminatively Trained Recurrent Neural Networks for Single-Channel Speech Separation," to appear in Proc. IEEE GlobalSIP 2014 Symposium on Machine Learning Applications in Speech Processing, Dec 2014.

• [Weninger et.al. 2014] Felix Weninger, Shinji Watanabe, Jonathan Le Roux, John R. Hershey, Yuuki Tachioka, Jürgen Geiger, Björn Schuller, Gerhard Rigoll: "The MERL/MELCO/TUM system for the REVERB Challenge using Deep Recurrent Neural Network Feature Enhancement", Proc. REVERB Workshop held in conjunction with ICASSP 2014 and HSCMA 2014, IEEE, Florence, Italy, 10.05.2013

• [Weninger et.al. 2014] Felix Weninger, Shinji Watanabe, Jonathan Le Roux, John R. Hershey, Yuuki Tachioka, Jürgen Geiger, Björn Schuller, Gerhard Rigoll: "The MERL/MELCO/TUM system for the REVERB Challenge using Deep Recurrent Neural Network Feature Enhancement", Proc. REVERB Workshop held in conjunction with ICASSP 2014 and HSCMA 2014, IEEE, Florence, Italy, 10.05.2013

• [Weninger&LeRoux&Hershey&Watanabe 2014] Felix Weninger, Jonathan Le Roux, John R. Hershey, Shinji Watanabe, "Discriminative NMF and its application to single-channel source separation," Proc. ISCA Interspeech 2014 (Interspeech 2014), Sep. 2014.

• [Xu&Du&Dai&Lee 2014] Yong Xu; Jun Du; Li-Rong Dai; Chin-Hui Lee, "An Experimental Study on Speech Enhancement Based on Deep Neural Networks," Signal Processing Letters, IEEE , vol.21, no.1, pp.65,68, Jan. 2014.

• [Wang&Narayanan&Wang 2014] Yuxuan Wang; Narayanan, A.; DeLiang Wang, "On Training Targets for Supervised Speech Separation," Audio, Speech, and Language Processing, IEEE/ACM Transactions on , vol.22, no.12, pp.1849,1858, Dec. 2014.

08.2015 82

Page 83: Tek ve Çok Kvoof Ses KÇvRf A Çf u için Derin Ö R vubyoyo.cmpe.boun.edu.tr/sunumlar/hakanerdogan-byoyo18.pdf · Momentum, RMSPROP, RPROP, ADAM etc. Stokastik gradyan ]v] , ilk

References-4

• [Wang&Wang 2015] Yuxuan Wang; DeLiang Wa g, A deep eural et ork for ti e-domain signal reconstruction," ICASSP 2015.

• [Anguera&Wooters&Hernando 2007] Anguera, Xavier, Chuck Wooters, and Javier Hernando. "Acoustic beamforming for speaker diarization of meetings." IEEE Transactions on Audio, Speech, and Language Processing 15.7 (2007): 2011-2022.

• [Souden&Benesty&Affes 2010] Souden, Mehrez, Jacob Benesty, and Sofiène Affes. "On optimal frequency-domain multichannel linear filtering for noise reduction." IEEE Transactions on audio, speech, and language processing 18.2 (2010): 260-276.

• [Benesty&Chen&Huang 2008] Benesty, Jacob, Jingdong Chen, and Yiteng Huang. Microphone array signal processing. Vol. 1. Springer Science & Business Media, 2008.

• [Mandel&Weiss&Ellis 2010] Mandel, Michael I., Ron J. Weiss, and Daniel PW Ellis. "Model-based expectation-maximization source separation and localization." IEEE Transactions on Audio, Speech, and Language Processing 18.2 (2010): 382-394.

• [Higuchi&Ito&Yoshioka&Nakatani 2016] Higuchi, Takuya, et al. "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise." 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016.

• [Ito&Araki&Nakatani 2013] Ito, Nobutaka, Shoko Araki, and Tomohiro Nakatani. "Permutation-free convolutive blind source separation via full-band clustering based on frequency-independent source presence priors." 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013.

• [Sawada&Araki&Makino 2011] Sawada, Hiroshi, Shoko Araki, and Shoji Makino. "Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment." IEEE Transactions on Audio, Speech, and Language Processing 19.3 (2011): 516-527.

• [Tran-Vu&Haeb-Umbach 2010] Vu, Dang Hai Tran, and Reinhold Haeb-Umbach. "Blind speech separation employing directional statistics in an expectation maximization framework." 2010 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2010.

■ [Weninger et.al. 2014] Weninger, Felix, et al. "Discriminatively trained recurrent neural networks for single-channel speech separation." Signal and Information Processing (GlobalSIP), 2014 IEEE Global Conference on. IEEE, 2014.

■ [Erdogan et.al. 2015] Erdogan, Hakan, et al. "Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks." 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015.

• [Heynmann&Drude&Haeb-Umbach 2016] Heymann, Jahn, Lukas Drude, and Reinhold Haeb-Umbach. "Neural network based spectral mask estimation for acoustic beamforming." 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016.

• [Xiao et.al. 2016] Xiao, Xiong, et al. "Deep beamforming networks for multi-channel speech recognition." 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016.

08.2015 83