ses tanima
TRANSCRIPT
Öznitelik Çıkarımı Frekans Spektrumu Katsayıları
Özellik vektörleri
Akustik İnceleme Gizli Durum Akustik İnceleme Benzerlikleri
“Six”
Konuşma birimleri inşa etme Nitelik benzerlikleri üretme Örnekleme oranı kritiktir! WSJ vs. WSJ_8k TIDIGITS, RM1, AN4, HUB4
Kelime Benzerlikleri
ARPA format Example:
1-grams:-3.7839 board -0.1552-2.5998 bottom -0.3207-3.7839 bunch -0.21742-grams:-0.7782 as the -0.2717-0.4771 at all 0.0000-0.7782 at the -0.29153-grams:-2.4450 in the lowest -0.5211 in the middle -2.4450 in the on
public <basicCmd> = <startPolite> <command> <endPolite>;
public <startPolite> = (please | kindly | could you ) *;
public <endPolite> = [ please | thanks | thank you ];
<command> = <action> <object>;
<action> = (open | close | delete | move); <object> = [the | a] (window | file | menu);
Ses birimleri için kelime haritaları
cmudict.06d ‘da bir örnek
POULTICE P OW L T AH SPOULTICES P OW L T AH S IH ZPOULTON P AW L T AH NPOULTRY P OW L T R IYPOUNCE P AW N SPOUNCED P AW N S TPOUNCEY P AW N S IYPOUNCING P AW N S IH NGPOUNCY P UW NG K IY
HMM arama grafları inşa etme : Akustik model İstatistik dil modeli Gramer Sözlük
Statik ve dinamik olarak inşa edilebilir
Düz (FlatLinguist) Dinamik düz (DynamicFlatLinguist) Sözcük Ağaçları (LexTreeLinguist)
Arama Grafları için harita özellik vektörleri
En uyumlu için grafı arama
P(sequence of feature vectors| word/phone) aka. P(O|W)
-> Giriş nasıl kelimelere benzetilir.
F ay ay ay ay v v v v vF f ay ay ay ay v v v vF f f ay ay ay ay v v vF f f f ay ay ay ay v vF f f f ay ay ay ay ay vF f f f f ay ay ay ay vF f f f f f ay ay ay v…
TimeO1 O2 O3
Algoritma kullanarak düşük değerler ayıklanır
Kelimeler!
En çok kullanılan ölçü Referans cümle içinden dönüştürürken
değişiklikler
Referans: “This is a reference sentence.” Sonuç: “This is neuroscience.” 2 Silme 1 Değiştirme Gerekli
Referans: “This is a reference sentence.” Sonuç: “This is neuroscience.”
€
WER=100×deletions+substitutions+insertionsLength
Referans: “This is a reference sentence.” Sonuç: “This is neuroscience.” D S D
€
WER=100×2+1+05
=100×3
5=60%
Çoklu konuşma engellenirse Tek kişi konuşurken
*Eğer girişte gürültü var ise hata oranı 2 katına çıkar
Diğer Değişkenler:-Sürekli vs. Yalıtılmış-Konuşma vs. Okuma-Lehçe
Sorular?
TimeO1 O2 O3
TimeO1 O2 O3
P(ay | f) *P(O2|ay)
P(f|f) * P(O2 | f)
TimeO1 O2 O3
P (O1) * P(ay | f) *P(O2|ay)
TimeO1 O2 O3
Sphinx4 Sık Sorulan Sorular:http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html
Soru. Arama grafı her tanıma sonucu için mi yoksa bir tanıma uygulaması için mi üretilir?
Cevap. Hangi Dilbilimini kullandığımıza göre değişir. Düz (The flat linguist) arama grafı oluşturur ve onu hafızada saklar. Küçük kelimeler için kullanılır. Sözcük Ağaçı
(The lexTreeLinguist) dinamik olarak arama graflarını düzenler.Böylece büyük kelimelere ulaşım kolaylaşır.
Soru.Ayrıştırıcı hangi algoritmayı kullanır? Cevap. Sphinx4 mutlak ve bağıl sinyal
ayrıştırma kullanır.
Mutlak Sinyal Genişliği - # aktif arama yolu <property name="absoluteBeamWidth" value="5000"/> Bağıl Sinyal Genişliği – Eşik olasılığı <property name="relativeBeamWidth" value="1E-120"/> Kelime Ekleme Olasılığı – <property name="wordInsertionProbability" value="0.7"/> Dil Ağırlık– Dil modeli puanları artırır. <property name="languageWeight" value="10.5"/>
Sessizlik girişi Olasılığı <property name="silenceInsertionProbability" value=".1"/> Dolgu girişi olasılığı <property name="fillerInsertionProbability" value="1E-10"/>
Python”da Java örneği:
import subprocess
subprocess.call(["java", "-mx1000m", "-jar","/Users/Username/sphinx4/bin/Transcriber.jar”)
Speech and Language Processing 2nd Ed.Daniel Jurafsky and James MartinPearson, 2009
Artificial Intelligence 6th Ed.George LugerAddison Wesley, 2009
Sphinx Whitepaperhttp://cmusphinx.sourceforge.net/sphinx4/#whitepaper
Sphinx Forumhttps://sourceforge.net/projects/cmusphinx/forums