專利名稱:在分布式語音識別系統(tǒng)中傳輸語音活動的方法和設(shè)備的制作方法
背景領(lǐng)域本發(fā)明一般涉及通信領(lǐng)域,更具體涉及在分布式語音識別系統(tǒng)中傳輸語音活動。
背景語音識別(VR)描繪一種使具有模擬智能的機器能識別用戶聲音指令以及促進人機接口的重要技術(shù)。VR也描繪一種對于人類通話理解的關(guān)鍵技術(shù)。應(yīng)用這些技術(shù)從聲音通話信號恢復(fù)語言信息的系統(tǒng)被稱作語音識別器。
VR,也被認(rèn)作通話識別,為公眾提供了一定的安全利益。例如,VR可用于取代人們按壓無線鍵盤按鈕的任務(wù),尤其是操作者一面駕駛汽車一面用無線手機時特別有用。當(dāng)一個使用者使用沒有VR功能的無線手機時,駕駛?cè)吮仨殞⑵涫忠齐x方向盤并且看住電話鍵盤,同時再按壓按鈕撥號呼叫。這樣的操作往往增加發(fā)生汽車事故的可能性。能通話的汽車電話,或為通話識別設(shè)計的電話系統(tǒng)使駕駛?cè)四苓M行電話呼叫同時繼續(xù)監(jiān)視道路。另外,不用手的汽車無線電話使駕駛?cè)四茈p手握方向盤的同時開始電話呼叫。用于簡單的不用手的汽車無線電話套件的樣本詞匯可以包括10個數(shù)字,關(guān)鍵詞“呼叫”,“發(fā)送”,“撥號”,“取消”,“清除”,“添加”,“刪除”,“歷史”,“程序”,“是”和“否”,以及預(yù)先限定數(shù)量的經(jīng)常呼叫的合作人,朋友或家庭成員的姓名。
語音識別器,或VR系統(tǒng),包括一個聲音處理器,也叫做聲音處理器前端,和一個文字解碼器,也叫做聲音處理器后端。聲音處理器通過對輸入的原始通話進行語音識別必須的信息攜帶特征,或矢量的一序列收集而為系統(tǒng)進行特征收集。文字解碼器隨后對特征或矢量的序列進行解碼以提供有意義的以及所需的輸出,諸如和接收到的輸入聲音相對應(yīng)的語言文字序列。
在一種應(yīng)用分布式系統(tǒng)技術(shù)的語音識別器實施中,經(jīng)常希望在一個具有能適當(dāng)處理計算和存儲任務(wù)的能力的子系統(tǒng),諸如一個網(wǎng)絡(luò)服務(wù)器上進行文字解碼任務(wù)。該聲音處理器應(yīng)處在和通話源盡可能近的位置以減少和聲碼器有關(guān)的不利影響。聲碼器在傳輸之前壓縮通話,但在一定的情況下會引進因信號處理和/或信道誘發(fā)的差錯造成的不利特征。這些影響通常產(chǎn)生于使用者設(shè)備的聲音解碼。分布式語音識別系統(tǒng)(DVR)的優(yōu)點在于,聲音處理器位于使用者設(shè)備中,而文字解碼器位于遠(yuǎn)處,諸如在一個網(wǎng)絡(luò)上,從而減小了使用者設(shè)備信號處理差錯或信道差錯的風(fēng)險。
DVR系統(tǒng)使諸如蜂窩移動電話,個人通信設(shè)備,個人數(shù)字助理(PDAs)以及其他設(shè)備能用語音指令得到來自諸如互聯(lián)網(wǎng)的無線網(wǎng)絡(luò)的信息和服務(wù)。這些設(shè)備訪問網(wǎng)絡(luò)上的語音識別服務(wù)器,因此比僅識別有限的詞匯組的系統(tǒng)更多功能,更耐用和更有用。
在無線應(yīng)用中,空氣界面方法降低了語音識別系統(tǒng)的總精度。這樣的降低通過從使用者的語音指令收集VR特征在一定情況下得到緩和。這樣的收集發(fā)生在諸如用戶單元,也叫做用戶站,移動站,移動工具,遠(yuǎn)程站,遠(yuǎn)程終端,訪問終端或使用者設(shè)備的設(shè)備上。用戶單元能在數(shù)據(jù)交流中傳輸VR特征,而不是在聲音交流中傳輸語音文字。
這樣,在一個DVR系統(tǒng)中,在設(shè)備上收集前端特征并將其發(fā)送到網(wǎng)絡(luò)。設(shè)備可以是移動的或固定的,并可以和一個或多個基站(Bses),也叫做蜂窩基站,小區(qū)基站,基本收發(fā)器系統(tǒng)(BTSes),基站收發(fā)器,中值通信中心,訪問點,訪問節(jié)點,Node Bs以及調(diào)制解調(diào)器合用收發(fā)器組(MPTs)進行通信。
復(fù)雜的語音識別任務(wù)要求相當(dāng)數(shù)量的計算資源。這樣的系統(tǒng)實際上不能位于只具有有限的CPU,電池和存儲資源的用戶單元上。分布式系統(tǒng)使計算資源能在網(wǎng)絡(luò)上得到。在通常的DVR系統(tǒng)中,文字解碼器比語音識別器前端有高得多的計算和存儲要求。這樣,在網(wǎng)絡(luò)中基于語音識別系統(tǒng)的服務(wù)器被用作語音識別系統(tǒng)后端并進行文字解碼。應(yīng)用基于VR系統(tǒng)作為后端的服務(wù)器用網(wǎng)絡(luò)資源而不是用戶設(shè)備資源提供了進行復(fù)雜的VR任務(wù)的好處。DVR系統(tǒng)的實例在題為“Distributed Voice Recognition System”,專利號為5956683的美國專利中敘述,此專利授予本發(fā)明的受讓人并引入在本文中作參考。
除了特征收集功能之外用戶可以進行簡單的VR任務(wù)。在使用者終端進行這些功能就不需要網(wǎng)絡(luò)卷入簡單的VR任務(wù),從而減少了網(wǎng)絡(luò)交流和提供通話可能服務(wù)的相關(guān)成本。在一定的情況下,網(wǎng)絡(luò)的交流擁塞可以對用戶單元造成基于VR系統(tǒng)的服務(wù)器的糟糕服務(wù)。分布式VR系統(tǒng)應(yīng)用復(fù)雜的VR任務(wù)能使用者具有豐富的界面特征,但也有增加網(wǎng)絡(luò)交流和偶然延遲的不利一面。
作為VR系統(tǒng)的一部分,通過在空氣界面上傳輸小于實際通話的數(shù)據(jù),諸如通話特征或其他聲音參數(shù),能對減少網(wǎng)絡(luò)交流有很大好處。已經(jīng)發(fā)現(xiàn),在移動設(shè)備中應(yīng)用聲音活動探測(VAD)模塊能通過將通話轉(zhuǎn)換成幀并將這些幀在空氣界面上傳輸而減少網(wǎng)絡(luò)交流。但是,在具體的情況下,這些幀內(nèi)容的性質(zhì)和質(zhì)量可以極大地影響全部系統(tǒng)的性能。在一個環(huán)境集下工作的通話子集可在其他環(huán)境中要求在服務(wù)器上過多的處理,從而降低了通話的質(zhì)量。
在DVR系統(tǒng)中,存在著一種需要即,減少所有的網(wǎng)絡(luò)擁塞和在系統(tǒng)中的延遲量,以及基于所處環(huán)境系統(tǒng)提供有效的聲音活動探測功能的能力。
概述本文中敘述的諸方面致力于減少網(wǎng)絡(luò)擁塞和延遲的傳輸語音活動系統(tǒng)和方法。一種傳輸語音活動語音識別的系統(tǒng)和方法包括聲音活動探測(VAD)模塊和一個特征收集(FE)模塊,在一個方面其位于用戶單元上。
在一個方面,收集被探測的涉及通話信號的聲音活動信息,識別涉及通話信號的特征收集信息,并選擇性地利用探測到的聲音活動信息和特征收集信息形成高級前端(AFE)數(shù)據(jù)。該高級前端數(shù)據(jù)包括聲音活動數(shù)據(jù)并且被提供到遠(yuǎn)程設(shè)備。
在另一個方面,該系統(tǒng)包括一個聲音活動探測器,一個基本和聲音活動探測器平行工作的特征收集器,一個發(fā)送器和一個接收裝置,其中特征收集器和聲音活動探測器的運行從通話收集特征和從通話探測聲音活動信息并且選擇性地利用收集到的特征和探測到的聲音活動信息形成高級前端數(shù)據(jù)。
在還有一個方面,通過從通話數(shù)據(jù)中收集聲音活動數(shù)據(jù),從通話數(shù)據(jù)中識別特征收集數(shù)據(jù)和選擇性地以高級前端數(shù)據(jù)的形式將涉及該聲音活動數(shù)據(jù)和特征收集數(shù)據(jù)的信息發(fā)送到遠(yuǎn)程設(shè)備,通話數(shù)據(jù)就這樣發(fā)送到遠(yuǎn)程設(shè)備。
附圖簡述通過下文結(jié)合附圖闡述的詳盡說明,本發(fā)明的特征,性質(zhì)和優(yōu)點將變得更加明顯。附圖中相同的參考字符相應(yīng)地識別通篇。
圖1根據(jù)一個方面顯示一個包括聲音處理器和文字處理器的語音識別系統(tǒng);圖2顯示一個分布式語音識別系統(tǒng)的示范方面;
圖3說明在一個分布式語音識別系統(tǒng)的示范性方面的延遲;圖4顯示一個根據(jù)本系統(tǒng)的一個方面的VAD模塊框圖;圖5顯示一個根據(jù)本系統(tǒng)的一個方面的VAD子模塊框圖;圖6顯示一個根據(jù)本系統(tǒng)的一個方面的組合的VAD子模塊和FE模塊框圖;圖7顯示一個根據(jù)本系統(tǒng)的一個方面的VAD模塊狀態(tài)示意圖;圖8顯示根據(jù)本系統(tǒng)的一個方面顯示在等時線上的部分通話和VAD事件;圖9是一個包括終端和服務(wù)器元件的全部系統(tǒng)框圖;圖10顯示第m個幀的幀信息;圖11是CRC受保護的分組信息流;和圖12顯示服務(wù)器特征矢量的產(chǎn)生。
詳述圖1說明一個根據(jù)當(dāng)前系統(tǒng)的一個方面,包括一個聲音處理器4和一個文字解碼器6的語音識別系統(tǒng)2。文字解碼器6包括一個聲音圖形匹配單元8和一個語言模擬單元10。語言模擬單元10也被在本技術(shù)領(lǐng)域中的某些人員認(rèn)知為語法規(guī)范單元。聲音處理器4連接到文字解碼器6的聲音匹配單元8。聲音圖形匹配單元8連接到語言模擬單元10。
聲音處理器4從輸入通話信號中收集特征并將該特征提供到文字解碼器6。通常,文字解碼器6將從聲音處理器4接收到的聲音特征翻譯成通話人的初始文字串的估計值。該估計值通過聲音圖形匹配和語言模擬產(chǎn)生。在諸如孤立的文字識別應(yīng)用的某些情況下語言模擬可以省略。聲音圖形匹配單元8探測和分布式可能的聲音圖形,諸如音素,音節(jié),文字等。聲音圖形匹配單元8將候選的圖形提供到語言模擬單元10,該單元模擬句法限制規(guī)則以確定語法良好地形成和有意義的字序。當(dāng)單獨的聲音信息意義不明確時,在語音識別中可以應(yīng)用句法信息。語音識別系統(tǒng)按順序解釋聲音圖形匹配結(jié)果并提供基于語言模擬的經(jīng)估計的文字串。
在文字解碼器6中的聲音圖形匹配和語言模擬要求決定的或隨機的模擬以說明通話人的音系學(xué)及聲音語音變化。通話識別系統(tǒng)功能與圖形匹配和語言模擬的質(zhì)量有關(guān)。在本技術(shù)領(lǐng)域中的熟練人員都知道的兩種通常用于聲音圖形匹配的模擬是基于模板的動態(tài)時間偏差(DTW)和隨機隱藏的Markov模擬(HMM)。
聲音處理器4描繪一個語音識別器2的前端通話分析子系統(tǒng)。為響應(yīng)輸入的通話信號,聲音處理器4提供一個適當(dāng)?shù)谋硎疽员碚髟摃r間變化的通話信號。聲音處理器4可以拋棄諸如背景噪聲,信道失真,通話人特征和通話方式等無關(guān)信息。聲音特征可以向語音識別器提供更高的聲音辨別能力。在該系統(tǒng)的這方面,短時間頻譜包絡(luò)是一個高度有用的特征。在表征短時間頻譜包絡(luò)中,通常使用的頻譜分析技術(shù)是基于濾波器組的頻譜分析。
組合的多VR系統(tǒng)或多VR引擎比單獨的VR系統(tǒng)提供提高的精確度并從輸入通話信號中使用更大數(shù)量的信息。授予本申請的受讓人的題為“CombinedEngine System and Method for Voice Recognition”,申請于2000年7月18日的美國專利申請No.09/618177和題為“System and Method for AutomaticVoice Recognition Using Mapping”。申請于2000年9月8日的美國專利申請No.09/657760敘述了一個組合VR引擎系統(tǒng),全文引用于本文作參考。
在本系統(tǒng)的一個方面,多VR引擎被組合成一個分布式VR系統(tǒng)。多VR引擎在用戶單元和網(wǎng)絡(luò)服務(wù)器中都提供了一個VR引擎。用戶單元中的VR引擎被稱為本地VR引擎,而服務(wù)器中VR引擎稱為網(wǎng)絡(luò)VR引擎。本地VR引擎包括一個執(zhí)行本地VR引擎任務(wù)的處理器和一個儲存通話信息的存儲器。網(wǎng)絡(luò)VR引擎包括一個執(zhí)行網(wǎng)絡(luò)VR引擎任務(wù)的處理器和一個儲存通話信息的存儲器。
分布式VR系統(tǒng)的一個實例在授予本發(fā)明的受讓人的題為“System andMethod for Improve Voice Recognition in a Distributed Voice RecognitionSystem”,申請于2001年1月5日的美國專利申請No.09/755651中公開并引用在本文中作參考。
圖2顯示本系統(tǒng)的一個方面。在圖2中,環(huán)境為一個無線通信系統(tǒng),包括一個用戶單元40和一個認(rèn)作為小區(qū)基站42的中值通信中心。在該方面,分布式VR包括一個位于用戶單元40的聲音處理器或特征收集元件22和一個位于中值通信中心的文字解碼器48。因為和語音識別實施相關(guān)的高計算成本僅在用戶單元一方面,在一個非分布式語音識別系統(tǒng)中甚至對一個中規(guī)模詞匯的語音識別也是完全行不通的。如果VR僅位于基站或遠(yuǎn)程網(wǎng)絡(luò),由于和通話編碼以及信道效應(yīng)有關(guān)的通話信號的降級,精確度會極大地降低。分布式系統(tǒng)的優(yōu)點包括因不用文字解碼器硬件而減少了用戶單元的成本,以及減少了和高強度計算的文字解碼器運行的本地性能有關(guān)的用戶單元電池的消耗。除了提供了語音識別功能的靈活性和擴展性以外,分布式系統(tǒng)還改進了識別精確度。
通話提供到話筒20,話筒將通話信號轉(zhuǎn)換成電信號并被提供到特征收集元件22。來自話筒20的信號可以是模擬的或數(shù)字的。如果是模擬的,可以在話筒20和特征收集元件22之間插入一個A/D轉(zhuǎn)換器(未顯示)。通話信號提供到特征收集元件22,該元件收集輸入通話的相關(guān)特征,用于解碼輸入通話的語言解釋。用于估計通話的特征的一個實例是一個輸入通話幀的頻率特征。輸入通話幀特征頻繁地用作為輸入通話幀的線性預(yù)示的編碼參數(shù)。然后收集的通話特征提供到發(fā)送器24,該發(fā)送器對收集的特征信號進行編碼,調(diào)制和放大,并且通過雙工器26將特征提供到天線28,在那里通話特征被發(fā)送到蜂窩基站或中值通信中心42。發(fā)送器24可以應(yīng)用本技術(shù)領(lǐng)域已知的各種類型的數(shù)字編碼,調(diào)制和傳輸方案。
在中值通信中心42,發(fā)送的特征由天線44接收并提供到接收器46。接收器46具有對接收到的發(fā)送特征進行解調(diào),解碼功能,并且接收器46將這些特征提供到文字解碼器48。文字解碼器48從通話特征中確定通話的語言估計并將一個動作信號提供到發(fā)送器50。發(fā)送器50放大,調(diào)制和編碼該動作信號,并將經(jīng)放大的信號提供到天線52。天線52將經(jīng)估計的文字或指令信號發(fā)送到手機40。發(fā)送器50也可以應(yīng)用技術(shù)上已知的數(shù)字編碼,調(diào)制或發(fā)送技術(shù)。
在用戶單元40,在天線28接收經(jīng)估計的文字或指令信號,天線將接收的信號通過雙工器26提供到接收器30,接收器對信號解調(diào)和解碼并將指令信號或經(jīng)估計的文字提供到控制元件38。為響應(yīng)接收到的指令信號或經(jīng)估計的文字,控制元件38提供預(yù)期的響應(yīng),諸如撥一個電話號碼,將信息提供到手機的屏幕上等。
在本系統(tǒng)的一個方面,從中值通信中心42發(fā)送的信息不需要對發(fā)送的通話解釋,但卻可以是對由手機發(fā)送的經(jīng)解碼信息的響應(yīng)。例如,一個人可以在通過通信網(wǎng)絡(luò)連向中值通信中心42的遠(yuǎn)端應(yīng)答機上詢問有關(guān)信息,在該情況下從中值通信中心42向用戶單元40發(fā)送的信號可以是來自該應(yīng)答機的信息。用于控制諸如該應(yīng)答機信息的數(shù)據(jù)的一個第二控制元件也可以位于中值通信中心。
VR引擎獲得以脈沖代碼調(diào)制或PCM信號的形式的通話數(shù)據(jù)。該VR引擎處理該信號直至作出一個有效的識別或者使用者停止通話以及所有通話都被處理。在一個方面,DVR結(jié)構(gòu)包括一個本地VR引擎,該引擎獲得PCM數(shù)據(jù)并且發(fā)送前端信息。該前端信息可以包括cepstral參數(shù),或可以是表征輸入通話信號的任何類型的信息或特征。在技術(shù)上已知的任何類型的特征可以被用于表征該輸入通話信號。
對于一個通常的識別任務(wù),本地引擎從其存儲器獲得一組系列模板。該本地引擎從一個應(yīng)用中獲得一個語法規(guī)范。一個應(yīng)用是一個服務(wù)邏輯,它使使用者用用戶單元完成一個任務(wù)。該邏輯由在用戶單元上的一個處理器執(zhí)行。這是用戶單元中使用者界面模塊的一個組成部分。
在語音識別系統(tǒng)中用于改進模板儲存的系統(tǒng)和方法在授予本發(fā)明的受讓人的題為“System and Method for Efficient Storage of Voice RecognitionModels”,申請于2001年1月12日的美國專利申請No.09/760076中敘述,并且全文引用于本文作參考。一種用于在噪聲環(huán)境和頻率失配條件中改進語音識別和改進模板儲存的系統(tǒng)和方法在授予本發(fā)明的受讓人的題為“System andMethod for Improving Voice Recognition in Noisy Environment andFrequency Mismatch Condition”,申請于2000年10月30日的美國專利申請No.09/703191中敘述,并全文引用于本文作參考。
“語法”用子文字模型規(guī)定了有效詞匯。通常的語法包括7位數(shù)字的電話號碼,美元數(shù)量,和來自一組名稱的城市名稱。通常的語法規(guī)范包括一個“詞匯外”條件以表示一個基于輸入通話信號不能作出肯定的識別決定的情況。
在一個方面,如果能處理由語法規(guī)定的VR任務(wù),本地VR引擎在本地產(chǎn)生一個識別假設(shè)。在規(guī)定的語法過于復(fù)雜使本地VR引擎不能處理時,本地引擎將前端數(shù)據(jù)發(fā)送到VR服務(wù)器。
如本文所使用的,正向鏈路指從網(wǎng)絡(luò)服務(wù)器向用戶單元的發(fā)送,反向鏈路指從用戶單元向網(wǎng)絡(luò)服務(wù)器的發(fā)送。傳送時間分隔成時間單位。在本系統(tǒng)的一個方面,傳送時間分隔成幀。在另一個方面,時間分隔成時隙。根據(jù)一個方面,系統(tǒng)將數(shù)據(jù)分隔成數(shù)據(jù)包并且在一個或多個時間單位上發(fā)送各個數(shù)據(jù)包。在每個時間單位,基站可以將數(shù)據(jù)發(fā)送指引到任何和該基站進行通信的用戶單元。在一個方面,幀可以被進一步分隔成多個時隙。在還有一個方面,時隙可以進一步分隔,諸如分隔成半時隙和四分之一時隙。
圖3說明了在一個分布式語音識別系統(tǒng)100的示范方面的延遲。DVR系統(tǒng)100包括一個用戶單元102,一個網(wǎng)絡(luò)150,和一個通話識別(SR)服務(wù)器160。用戶單元102連接到網(wǎng)絡(luò)150,網(wǎng)絡(luò)150連接到SR服務(wù)器160。DVR系統(tǒng)100的前端是用戶單元102,該單元包括一個特征收集(FE)模塊104,或高級特征收集(AFE)模塊以及一個聲音活動探測(VAD)模塊106。FE進行從通話信號收集特征并壓縮形成的特征。在一個方面,VAD模塊確定哪個幀將被從用戶單元發(fā)送到SR服務(wù)器。VAD模塊將輸入通話分解成段,這些段包括通話被探測的幀和與有被探測的通話的幀之前和之后相鄰的幀。在一個方面,每個段的末端(EOS)通過發(fā)送一個空幀在有效載荷中做一個標(biāo)記。
具有一個聲音活動探測模塊的DVR系統(tǒng)的一個實例在題為“Method forReducing Response Time in Distributed Voice Recognition System”,申請于2001年5月17日的臨時申請No.60/292043和題為“Method and Apparatusfor Transmitting Speech Activity in Distributed Voice RecognitionSystem”,申請于2001年6月14日的臨時申請No.60/298502以及和該兩個臨時申請同時申請,涉及同一課題,題為“System and Method for TransmittingSpeech Activity in Distributed Voice Recognition System”的美國專利申請中敘述,這些申請都被授予本發(fā)明的受讓人,并引用于本文作參考。
或者,在引用于本文中作參考的題為“Method for Reducing Response Timein Distribution System”,申請于2001年5月17日的臨時申請60/292043中,服務(wù)器在前端特征之前接收VAD信息。因為在前端特征之前接收VAD信息可提供改進的識別精確度,不會由于高級前端(AFE)使用更長算法所化去的等待時間而形成較長的響應(yīng)時間。
為了表征一個通話節(jié)段,VR前端進行前端處理。矢量S是一個通話信號,矢量F和矢量V分別是FE和VAD矢量。在一個方面,VAD矢量是一個長元素,該一個元素包含一個二進制值。在另一個方面,VAD矢量是一個有關(guān)附加特征的二進制值。在一個方面,該附加特征是使服務(wù)器能精細(xì)終端定點的帶能量。終端定點構(gòu)成了通話信號進入寂靜和通話段的分界。應(yīng)用帶能使服務(wù)器能精細(xì)定點,允許使用附加的計算資源以達(dá)到更加可靠的VAD決定。
帶能對應(yīng)于聲響幅度。聲響標(biāo)度是和人類聽覺對應(yīng)的臨界帶的扭曲頻率標(biāo)度。聲響幅度的計算在本技術(shù)領(lǐng)域是已知的,并在Lawrence Rabiner和Biing-Hwang的Fundamental of Speech Recognition(1993)中有敘述,該文全文引用于本文作參考。在一個方面,數(shù)字化的PCM通話信號轉(zhuǎn)換到帶能。
圖3說明了可能被引入至DVR系統(tǒng)中的延遲。S代表通話信號,F(xiàn)是AFE矢量,V是VAD矢量。VAD矢量可以是一個二進制值,或者是一個和附加特征有關(guān)的二進制值。這些附加特征可以包括但不限制于使服務(wù)器能精細(xì)定點的帶能。計算F和V以及在網(wǎng)絡(luò)上傳輸它們中的延遲在圖3中的Z標(biāo)記中說明。引入到計算F的算法潛在因素是k,k可以有各種值,包括但不限制于100到250毫秒的范圍。計算VAD信息的算法潛在因素是j。j可以具有各種值,包括但不限制于10到30毫秒。因此AFE矢量可以用k的延遲得到,VAD信息可以用j的延遲得到。引入到在網(wǎng)上傳輸信息的延遲是n,F(xiàn)及V的網(wǎng)絡(luò)延遲是相同的。
圖4說明了VAD模塊400框圖。幀模塊402包括一個模擬到數(shù)字的轉(zhuǎn)換器(未顯示)。在一個方面,模擬到數(shù)字轉(zhuǎn)換器的輸出通話取樣率是8kHz。在本技術(shù)領(lǐng)域的熟練人員可以理解的是也可以用其他的輸出取樣率。通話樣本被分解為重疊的幀。在一個方面,幀長度是25ms(200個樣本),幀速率是10ms(80個樣本)。
在當(dāng)前系統(tǒng)的一個方面,由窗口模塊404用Hamming窗口函數(shù)為每個幀開一個窗口。
sw(n)={0.54-0.46.cos(2π(n-1)N-1)}.s(n),1≤n≤N]]>式中N是幀長度,s(n)和sw(n)分別是窗口框的輸入和輸出。
快速Fourier變換(FFT)模塊406計算每個窗口幀的振幅頻譜。在一個方面,系統(tǒng)應(yīng)用了長度為256的Fourier變換計算每個窗口幀的振幅頻譜。來自振幅頻譜的第一個129bin可以保留作進一步的處理??焖貴ourier變換根據(jù)下面的方程式進行bink=|Σn=0FFTL-1sw(n)e-jnkjxFFTL|,k=0,...,FFTL-1.]]>式中sw(n)是到FFT模塊406的輸入,F(xiàn)FTL是框長度(256),bink是形成的復(fù)合矢量的絕對值。功率頻譜(PS)模塊408通過采用振幅頻譜的平方計算功率頻譜。
在一個方面,Mel-濾波模塊409用完全的頻率范圍
計算MEL-扭曲頻譜。該帶被分解成在MEL頻率標(biāo)度中等距離的23個信道,為每個幀提供23個能量值。在該方面,Mel-濾波對應(yīng)于下面的方程式Mel{x}=2595*log10(1+x700),]]>fci=Mel-1{i*Mel{fs/223+1}},i=1,...,23]]>cbin=floor{fcifs*FFTL}]]>
式中floor(.)代表四舍五入取最接近的整數(shù)。MEL濾波的輸出是每個帶中FFT功率頻譜值,bini的加權(quán)總和。三角的,半重疊開窗口可以根據(jù)下面的方程式應(yīng)用fbankk=Σj=cbink-1cbinkj-cbink-1cbink-cbink-1bini+Σcbinicbini+1cbink+1-jcbink+1-cbink,]]>式中k=1,...,23。cbin0和cbin24分別表示和開始頻率和半取樣頻率對應(yīng)的FFT bin指數(shù)cbin0=0cbin24=floor{fs/2fs*FFTL}=FFTL/2]]>本技術(shù)領(lǐng)域中的熟練人員可以理解的是,取決于環(huán)境可以應(yīng)用其他的MEL-濾波方程式和參數(shù)。
Mel-濾波模塊409的輸出是每個帶中FFT功率頻譜值的加權(quán)總和。Mel-濾波模塊409的輸出通過進行Mel-濾波輸出非線性轉(zhuǎn)換的算法模塊410。在一個方面,非線性轉(zhuǎn)換是一種自然算法。在本技術(shù)領(lǐng)域中的熟練人員可以理解的是也可以應(yīng)用其他的非線性轉(zhuǎn)換。
聲音活動探測器(VAD)子模塊412將算法模塊409的轉(zhuǎn)換輸出作為輸入并且區(qū)別通話和非通話幀。如圖4所示,算法模塊的轉(zhuǎn)換輸出可以直接傳輸而不通過VAD子模塊412。當(dāng)不需要聲音活動探測時,諸如當(dāng)沒有數(shù)據(jù)幀存在時發(fā)生對VAD子模塊412的旁路。VAD子模塊412探測出在一個幀中存在聲音活動。VAD子模塊412確定一個幀是否有聲音活動。在一個方面,VAD子模塊412是一個三層的正饋神經(jīng)網(wǎng)絡(luò)。該正饋神經(jīng)網(wǎng)絡(luò)可以修整為用Backpropagation算法區(qū)別通話的非通話幀的目標(biāo)。該系統(tǒng)用噪聲數(shù)據(jù)庫進行脫機訓(xùn)練,諸如對Aurora2-TIDigits和SpeechDatCar-Italian,仿真的信息損壞的TIMIT和Speech in Noise Environment(SPINE)數(shù)據(jù)庫部分的訓(xùn)練。
圖5顯示一個VAD子模塊500框圖。在一個方面,向下取樣模塊420對算法模塊輸出的向下取樣增加1倍。
離散余弦轉(zhuǎn)換(DCT)模塊422從在MEL標(biāo)度上向下取樣的23個對數(shù)能中計算倒頻(cepstral)系數(shù)。在一個方面,DCT模塊422計算15個倒頻系數(shù)。
神經(jīng)網(wǎng)絡(luò)(NN)模塊424提供一個對當(dāng)前幀為通話幀或非通話幀的后驗概率的估計。為了將該估計轉(zhuǎn)換成二進制特征,閾值模塊426將一個閾值應(yīng)用到來自NN模塊424的估計。在一個方面,該系統(tǒng)應(yīng)用0.5閾值。
中值濾波器模塊427將二進制特征平滑化。在一個方面用一個11點的中值濾波器平滑化二進制特征。在一個方面,中值濾波器模塊427消除任何短暫?;蜓永m(xù)時間少于40ms的通話的短促脈沖串。在一個方面,中值濾波器模塊427在從寂靜到通話的轉(zhuǎn)變前后也添加7個幀。在一個方面,系統(tǒng)根據(jù)一個幀是否確定為是語音活動或寂靜而設(shè)定一個比特。
神經(jīng)網(wǎng)絡(luò)模塊424和中值濾波器模塊427可以如下工作。神經(jīng)網(wǎng)絡(luò)模塊424有6個輸入單元,15個隱藏單元和一個輸出。到神經(jīng)網(wǎng)絡(luò)模塊424的輸入可以由從log-Mel-濾波器組能量中取得的兩個倒頻系數(shù)C0和C1的三個幀組成,一個當(dāng)前幀和兩個相鄰幀。因為所使用的三個幀在向下取樣之后,它們有效地代表五個幀信息。在訓(xùn)練期間,神經(jīng)網(wǎng)絡(luò)模塊424有兩個輸出,每一個都用于通話和非通話的目標(biāo)。經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模塊424的輸出可以提供一個對當(dāng)前幀是通話或非通話的后驗概率的估計。在正常條件下的試驗期間只使用和非通話的后驗概率相對應(yīng)的輸出。一個0.5的閾值可施加到該輸出以將其轉(zhuǎn)換到二進制特征。二進制特征可以用一個相應(yīng)于中值濾波器模塊427的11點的中值濾波器平滑化。任何的短暫?;蚨逃诩s40ms延續(xù)的通話的短促脈沖串被該濾波消除。該濾波在從寂靜到通話和從通話到寂靜的轉(zhuǎn)換前后也分別添加7個幀。雖然該11點中值濾波器要引起十個幀,過去的5個幀和以后的5個幀的約100ms的延遲,該延遲是向下取樣的結(jié)果并被吸收進一個由其后的LDA濾波引起的200ms的延遲中。
圖6顯示FE模塊600框圖。幀形成模塊602,窗口模塊604。FFT模塊606,PS模塊608,MF模塊609和算法模塊610也是FE的一部分并在FE模塊600中發(fā)揮和其在在VAD模塊400中發(fā)揮的同樣的功能。在一個方面,這些共用的模塊在VAD模塊400和FE模塊600之間分享。
一個VAD子模塊612連接到算法模塊610。一個線性判別分析(LDA)模塊428連接到該VAD子模塊612并將一個帶通濾波器應(yīng)用到VAD子模塊612的輸出。在一個方面,帶通濾波器是一種RASTA濾波器。能夠被用于VR前端的一種示范帶通濾波器是RASTA濾波器,它在題為“Auditory Model forParametrization of Speech”,申請于1995年9月12日的美國專利No.5450522中敘述,該專利引用在本文中作參考。如本文中所用,該系統(tǒng)可以用41-tap FIR濾波器為23個信道中的每一個濾去對數(shù)能量的時間軌跡。濾波系數(shù)可以是用在本技術(shù)領(lǐng)域已知的在語音歸類的OGI-Stories數(shù)據(jù)庫中的線性判別分析(LDA)技術(shù)獲得的濾波系數(shù)。可以保留兩個濾波器以減少存儲要求。該兩個濾波器可以用41-tap FIR濾波器進一步近似。帶有6Hz截止的濾波器被用到Mel信道1和2,帶有16Hz截止的濾波器用到信道3到23。該濾波器輸出是圍繞當(dāng)前幀取中的時間軌跡的加權(quán)總和,該加權(quán)由濾波系數(shù)給出。該瞬時濾波假定一個大致為20幀或大致200ms的超前。還有,取決于環(huán)境和所要求的性能,在本技術(shù)領(lǐng)域熟練的人員可以應(yīng)用不同的計算和系數(shù)。
向下取樣模塊430向下取樣LDA模塊的輸出。在一個方面,向下取樣模塊430對LDA模塊輸出的向下取樣增加1倍。23個Mel信道的時間軌跡可以只濾波每第二個幀。
離散余弦變換(SCT)模塊432在MEL標(biāo)度上計算來自向下取樣的23個算法能量的倒頻系數(shù)。在一個方面,DCT模塊432根據(jù)下面的方程式計算倒頻系數(shù)Ci=Σj=123fi*cos(π·i23·(j-0.5))Σj=123cos(π·i23·(j-0.5))*cos(π·i23·(j-0.5)),0≤i≤14]]>為了補償噪聲,一個在線規(guī)格化(OLN)模塊434將一種平均和變化的規(guī)格化應(yīng)用到來自DCT模塊432的倒頻系數(shù)上。本地平均和變化的估計值為每一個幀進行更新。在一個方面,一個由實驗確定的偏置在規(guī)格化特征之前添加到變化的估計值上。該偏置消除了在長寂靜區(qū)域中變化的小噪聲估計值的效應(yīng)。從經(jīng)規(guī)格化的靜態(tài)特征中得到動態(tài)特征。該偏置不僅節(jié)省了規(guī)格化要求的計算,而且提供了更好的識別性能。規(guī)格化可以應(yīng)用下面的方程式mt=mt-1-α(xt-mt-1) xi=(xi-mi)σi+θ]]>式中xt是在時間t的倒頻系數(shù),mt和σt2是在時間t估計的倒頻系數(shù)的平均和變化,x’t是在時間t上規(guī)格化的倒頻系數(shù)。α的值可以小于1以提供變化的正估計。α的值可以是0.1,偏置θ可以固定在1.0。最后的特征矢量可以包括15個倒頻系數(shù),包括C0。該15個倒頻系數(shù)構(gòu)成了前端輸出。
特征壓縮模塊436壓縮特征矢量。比特流格式化和幀形成模塊438對經(jīng)壓縮的特征矢量進行比特流格式化,從而準(zhǔn)備將它們傳輸出去。在一個方面,特征壓縮模塊436進行對格式化的比特流的誤差保護。
在本發(fā)明的一個方面,F(xiàn)E或AFE模塊600將矢量FZ-k和矢量VZ-j連在一起。根據(jù)圖3的描繪,每個FE或AFE矢量都由矢量FZ-k和矢量VZ-j的相連組成。在本系統(tǒng)的一個方面,系統(tǒng)領(lǐng)先于有效負(fù)荷傳輸VAD輸出,減小了DVR系統(tǒng)的所有潛在因素,因為VAD的前端處理比AFE的前端處理短(j<k)。在一個方面,當(dāng)矢量V指出寂靜的持續(xù)已經(jīng)大于一個Shangover的時間周期,在服務(wù)器上運行的一個應(yīng)用程序能確定使用者說話的終端。Shangover是寂靜周期,跟在將要完成的發(fā)聲捕獲的語音活動后面。Shangover通常在說話中允許大于夾在其中的寂靜。如果Shangover>k,AFE算法潛在因素將不增加響應(yīng)時間。相應(yīng)于時間t-k的FE特征和相應(yīng)于時間t-j的VAD特征可以相結(jié)合而形成擴展的AFE特征。系統(tǒng)傳輸可得到的VAD輸出并且不取決于AFE輸出傳輸?shù)目捎眯?。VAD輸出和AFE輸出可以和有效負(fù)荷的傳輸同步。相應(yīng)于通話的每個段的信息可以在幀沒有丟失下傳輸。
或者,根據(jù)本發(fā)明的另一個方面,在寂靜周期期間信道帶寬可以減小。當(dāng)矢量V指出寂靜區(qū)域時矢量F可以用一個較低的比特率量化。該較低比特率的量化類似于可變化速率和多速率的音碼器,在這些音碼器中比特率基于聲音活動的探測而變化。該系統(tǒng)使VAD輸出及FE輸出和傳輸有效負(fù)荷同步。然后系統(tǒng)傳輸相應(yīng)于通話的每段信息,從而傳輸VAD輸出。在帶有寂靜的幀上比特率減小。還有,相應(yīng)于通話的每段信息可以在幀沒丟失下在移動方上傳輸。
或者,只有通話幀可以傳輸?shù)椒?wù)器。帶有寂靜的幀被完全丟失。在只有通話幀被傳輸?shù)椒?wù)器時,服務(wù)器可以推斷使用者已經(jīng)完成了通話。該通話的完成不考慮等待時間k,j和n??紤]如“Portland<PAUSE>Maine”或“617-555-<PAUSE>1212”的多文字情況。系統(tǒng)用一個單獨的信道傳輸VAD信息。相應(yīng)于<PAUSE>區(qū)域的AFE特征在用戶單元上丟失。結(jié)果,在沒有一個單獨的信道情況下,服務(wù)器將沒有信息去推斷使用者已經(jīng)完成了通話。該方面可以用一個單獨的信道傳輸VAD信息。
在本發(fā)明的還有一個方面,如根據(jù)圖7的狀態(tài)示意圖以及在表1中的事件和活動,即使在使用者的通話中有長停頓時,也可以保持識別器的狀態(tài)。當(dāng)系統(tǒng)探測語音活動時,系統(tǒng)傳輸相應(yīng)于丟失的幀和在傳輸通話幀之前丟失的全部數(shù)量的幀的一個AFE模塊600的平均矢量。另外,當(dāng)終端或移動端探測到寂靜的Shangover幀已經(jīng)被觀測到時,這表明使用者說話的結(jié)束。在一個方面,通話幀和丟失的所有數(shù)量的幀都在同一個信道中和AFE模塊600的平均矢量一起傳輸?shù)椒?wù)器。這樣,有效負(fù)荷包括特征和VAD輸出兩者。在一個方面,VAD輸出在有效負(fù)荷中最后發(fā)送以指出通話結(jié)束。
對于一個通常的發(fā)聲,VAD模塊400將開始在示閑狀態(tài)702和轉(zhuǎn)變到初始寂靜狀態(tài)704,作為事件A的結(jié)果??梢园l(fā)生幾個B事件,將模塊留在初始寂靜狀態(tài)。當(dāng)系統(tǒng)探測到通話時,事件C引起到有效通話狀態(tài)706的轉(zhuǎn)變。然后該模塊用事件D和E在有效通話706和夾入的寂靜狀態(tài)708之間切換。當(dāng)夾入的寂靜長于Shangover時,這構(gòu)成說話的結(jié)束以及事件F引起了到示閑狀態(tài)702的轉(zhuǎn)變。事件Z代表在發(fā)聲中一個長的初始寂靜。當(dāng)使用者的通話沒有探測到時該長的初始寂靜容易造成時間超過的錯誤條件。事件X中斷一個給出的狀態(tài)并且將模塊返回到示閑狀態(tài)702。這可以是一個由使用者或由系統(tǒng)發(fā)起的事件。
圖8顯示了在等時線上的部分通話和VAD事件。參考圖8和表2,關(guān)于VAD模塊400,顯示了引起狀態(tài)轉(zhuǎn)變的事件。
表1
在表1中,Sbefore和Safter是在有效通話前后傳輸?shù)椒?wù)器的寂靜幀的數(shù)量。
從狀態(tài)示意圖和表1顯示在移動端的相應(yīng)活動的事件,在發(fā)起狀態(tài)轉(zhuǎn)變中應(yīng)用了一定的閾值。對這些閾值可以使用一定的缺省值。但是,在本技術(shù)領(lǐng)域熟練的人員將理解的是,對于表1所示的閾值可以用其他的值。例如,但并不是限制,服務(wù)器可以根據(jù)應(yīng)用修改這些缺省值。如表2所確定的,缺省值是可編程序的。
表2
在一個方面,最小發(fā)聲持續(xù)時間Ssii約100ms。在另一個方面,在有效通話前的待發(fā)送的寂靜區(qū)量Sbefore約200ms。在另一個方面,在有效通話后的待發(fā)送的寂靜量Safter約200ms。在另一個方面,在跟隨待完成的發(fā)聲捕獲的有效通話期間的寂靜時間量Shangover在500ms和1500ms之間,取決于VR的應(yīng)用。在還有一個方面,一個8比特計數(shù)器能在每秒100個幀時Smaxsii計數(shù)為2.5秒。在還有一個方面,有效通話前后希望的最小寂靜時間Sminsii約200ms。
圖9顯示全部的系統(tǒng)結(jié)構(gòu)。通話通過如圖4,5和6說明的那樣工作的終端特征收集模塊901。應(yīng)用終端壓縮模塊902壓縮收集的特征,來自終端壓縮模塊的輸出通過信道到達(dá)服務(wù)器。服務(wù)器解壓縮模塊911解壓縮該數(shù)據(jù)并將其通到服務(wù)器特征矢量產(chǎn)生模塊912,該模塊將數(shù)據(jù)通到通話識別服務(wù)器模塊913。
終端壓縮模塊902應(yīng)用矢量量化的方法量化該特征。從前端接收的特征矢量用一個分離矢量量化器在終端壓縮模塊902加以量化。接收到的系數(shù)除了C0以外都被集合成對,每一對都用其各自的矢量量化代碼本加以量化。系數(shù)值的結(jié)果組被用于描繪通話幀。使用具有相應(yīng)的代碼本尺寸的配對系數(shù)的一個方面在表3中顯示。在本技術(shù)領(lǐng)域熟練的人員將理解的是,也可以應(yīng)用其他的配對方法和代碼本尺寸,同時還在本系統(tǒng)的范圍之內(nèi)。
表3
為了確定索引,系統(tǒng)可以用一個歐幾里得距離找到最接近的矢量量化的矩心,加權(quán)矩陣設(shè)定到恒等矩陣。為敘述將索引壓縮到比特流后的一個幀所需要的比特數(shù)約為44。在技術(shù)上已知的LBG算法用于訓(xùn)練代碼本。系統(tǒng)用所有訓(xùn)練數(shù)據(jù)的平均值初始化該代碼本。在每個步驟中,系統(tǒng)將每個矩心分離成兩個,對該兩個值重新估計。分離在規(guī)格偏離矢量的正負(fù)方向上根據(jù)下面的方程式乘以0.2進行μi-=μi-0.2.σi]]>μi+=μi+0.2.σi]]>式中μi和σi分別是平均值和第i簇的規(guī)格偏離。
用于傳輸壓縮的特征矢量的比特流如圖10中顯示。幀的結(jié)構(gòu)在技術(shù)上是眾所周知的幀具有經(jīng)修改的幀分組數(shù)據(jù)流的定義。幀結(jié)構(gòu)的一個普通實例定義于ETSI ES 201 108 v1.1.2中的題為“Distributed Speech Recognition;Front-end Feature Extraction Algorithm;Compression Algorithm”,2000年4月(“ETSI文件”)一文,該文的全部內(nèi)容引用于本文作參考中。ETSI文件討論了多幀格式,同步順序和標(biāo)題領(lǐng)域。用于一個單幀的索引如圖10所示格式化。每個幀在八個邊界上的精確對準(zhǔn)都有變化。從圖10可知,索引或88比特的兩個幀被集合在一起作為一對。特征可以向下取樣,這樣,相同的幀被重復(fù),如圖11所示。這種幀重復(fù)在特征傳輸中避免了延遲。系統(tǒng)應(yīng)用一個四比特的循環(huán)冗余檢查(CRC)并結(jié)合幀對分組數(shù)據(jù)以填充通常應(yīng)用的138個八位分組特征流,諸如在ETSI文件中的一樣。形成格式要求每秒4800比特的數(shù)據(jù)速率。
在服務(wù)器方面,服務(wù)器進行比特流解碼和錯誤緩解如下。一個比特流解碼,同步順序探測,標(biāo)題解碼和特征解壓縮的實例可以在ETSI文件中找到。在本系統(tǒng)中,錯誤的緩解通過首先探測接收到的帶有錯誤的幀,然后替換接收到的帶有錯誤的幀的參數(shù)值。系統(tǒng)可以用兩種方法,CRC和數(shù)據(jù)一致性,來確定是否接收到帶有錯誤的幀對分組數(shù)據(jù)。對于CRC方法,當(dāng)從接收到的幀對分組數(shù)據(jù)的重新計算的CRC和接收到的幀對的CRC不匹配時就存在錯誤。對于數(shù)據(jù)一致性方法,服務(wù)器將在一個幀分流數(shù)據(jù)對內(nèi)相應(yīng)于兩個幀的每個索引,idxi,i+1的參數(shù)進行比較而根據(jù)下面的方程式確定接收到的任一索引是否帶有錯誤 在接收到時帶有錯誤的幀對分組數(shù)據(jù)時,要加以分類,如果
Σi=0,2,...13badindexflagi≥2]]>當(dāng)服務(wù)器探測到幀對分組數(shù)據(jù)不能通過CRC試驗時,系統(tǒng)就可以對錯誤數(shù)據(jù)應(yīng)用數(shù)據(jù)一致性檢查。服務(wù)器可以在一個幀對分組數(shù)據(jù)不能通過CRC試驗之前將數(shù)據(jù)一致性檢查應(yīng)用到該幀對分組數(shù)據(jù),然后在1個不能通過該試驗后應(yīng)用到該幀對分組數(shù)據(jù),直至該幀分組數(shù)據(jù)通過該數(shù)據(jù)一致性試驗。
服務(wù)器確定幀帶有錯誤以后,諸如用ETSI文件中提出的方式將接收到的帶有錯誤的幀的參數(shù)值予以替換。
根據(jù)圖12發(fā)生服務(wù)器特征矢量產(chǎn)生。從圖12可知,服務(wù)器解壓縮在20毫秒中傳輸15個特征。增量計算模塊1201計算時間導(dǎo)數(shù)或增量。系統(tǒng)根據(jù)下面的回歸方程式計算導(dǎo)數(shù)deltai=Σl=1Ll*(xt+l-xt-l)2Σl=1Ll2]]>式中xt是特征矢量的第t個幀系統(tǒng)將該方程式應(yīng)用到已經(jīng)計算出的增量來計算二階導(dǎo)數(shù)。然后系統(tǒng)在并置塊1202中通過導(dǎo)數(shù)和雙導(dǎo)數(shù)將初始的15維數(shù)的特征并置在一起,產(chǎn)生一個擴大的45維的特征矢量。在計算第一個導(dǎo)數(shù)時,系統(tǒng)可以用尺寸2的L,但在計算雙導(dǎo)數(shù)時系統(tǒng)可以用尺寸1的L。在本技術(shù)領(lǐng)域熟練的人員將認(rèn)識到的是,可以用其他的參數(shù)同時仍在本系統(tǒng)的范圍內(nèi),可以用其他的計算方法計算增量和導(dǎo)數(shù)。應(yīng)用低L尺寸使等待時間保持相對低,諸如在40ms級上,相應(yīng)于未來輸入的兩個幀。
KLT塊1203描繪了Contextual Karhunen-Loeve Transformation(主要成分分析),其中45維矢量的三個連貫的幀(一個過去的幀,一個當(dāng)前的幀和一個將來的幀)被堆疊在一起由135的矢量形成一個1。在平均規(guī)格化之前,服務(wù)器用通過主要成分分析(PCA)得到的基礎(chǔ)功能將該矢量投射到噪聲訓(xùn)練數(shù)據(jù)上??梢詰?yīng)用的PCA的一個實例使用了TIMIT數(shù)據(jù)庫的一部分,該部分被向下取樣到8Khz并且通過在各種不同信噪比上的噪聲人工訛誤。更精確地說,PCA從TIMIT的核心訓(xùn)練組采用5040個發(fā)聲并且將該組相等地分成20個相等尺寸的組。然后PCA可以添加在Aurora2’s English digits的試驗A組中找到的四種噪聲,即地鐵,水流,汽車和展覽會,其原始信噪比為,20,15,10和5dB。PCA僅保持開始的相應(yīng)于最大的本征值的45個元素并且應(yīng)用矢量矩陣乘法。
服務(wù)器可以將一個非線性轉(zhuǎn)換應(yīng)用到擴大的45維特征矢量,諸如在MLP模塊1204中用正饋多層感覺(MLP)的那樣。MLP的一個實例在Bourlard和Morgan的題為“Connectionist Speech Recognition a Hybrid Approach”,Kluwer Academic Publishers,1994中顯示,該文的全部內(nèi)容引用在本文中作參考。服務(wù)器將五個連貫的特征幀堆疊在一起以產(chǎn)生一個225維的輸入矢量通到MLP。這樣的堆疊會產(chǎn)生兩個幀的延遲(40ms)。然后服務(wù)器通過從訓(xùn)練本體上減去和除以分別在特征上計算得到的全局平均和規(guī)格偏離使該225維的輸入矢量規(guī)格化。MLP有兩層不包括輸入層;隱藏層由500個配以S形激活功能的單元組成,而輸出層由56個配以最軟性激活功能的輸出單元組成。MLP從一個歸類的數(shù)據(jù)庫在語音目標(biāo)上受到訓(xùn)練(通常用于ICSI的英語的56個音素),該數(shù)據(jù)庫帶有添加的噪聲,諸如上述關(guān)于PCA轉(zhuǎn)換的描述。在識別過程中,服務(wù)器在輸出單元中可不用最軟性的功能,所以該塊的輸出相應(yīng)于MLP隱藏層的“線性輸出”。服務(wù)器也根據(jù)下面方程式將該56個“線性輸出”的平均值從每個“線性輸出”中減去LinOuti*=LinOuti=Σi=156LinOuti56]]>式中LinOuti是第I個輸出單元的線性輸出,LinOuti*是平均減去的線性輸出服務(wù)器能在兩個字節(jié)的字中儲存各個加權(quán)的MLP。MLP模塊1204的一個實例具有225*500=112500輸入到隱加權(quán),500*56=28000隱加權(quán)到輸出和500+56=556個偏置加權(quán)。用于儲存這些加權(quán)所要求配置的存儲器的總數(shù)是141056字。對于來自MLP模塊1204的輸出的每個幀,服務(wù)器在MLP中都可以有每一個單元將其輸入和其加權(quán)進行相乘,進行累加,對于隱藏層,服務(wù)器在S形功能評價表中進行查尋。查尋表可以有一個4000個兩字節(jié)的字的規(guī)模??梢詰?yīng)用另一個MLP模塊構(gòu)型而同時仍在本系統(tǒng)的范圍之內(nèi)。
服務(wù)器在PCA塊1205中用PCA進行維數(shù)減少和去相關(guān)。服務(wù)器對MLP模塊1204的56維“線性輸出”應(yīng)用PCA。該PCA應(yīng)用將特征投射到帶有正交基的空間。這些正交基用PCA在上述用于訓(xùn)練MLP的相同數(shù)據(jù)上進行預(yù)計算。對于56個特征,服務(wù)器可以從中選擇相應(yīng)于最大本征值的28個特征。該計算包括將1乘以56個矢量,將56乘以28個矩陣。
第二并置塊1206并置來自每個幀的兩個信道的矢量以服從于一個73維的特征矢量。向上取樣模塊1207對特征流向上取樣二倍。服務(wù)器用順序幀之間的線性插入獲得向上取樣的幀,從而73個特征傳輸?shù)酵ㄔ捵R別服務(wù)器算法。
這樣,現(xiàn)已敘述一個新穎的經(jīng)改進的用于語音識別的方法和設(shè)備。在本技術(shù)領(lǐng)域熟練的人員將理解的是,結(jié)合本文公開的諸方面敘述的各種說明性的邏輯塊,模塊和映射可以電子硬件,計算機軟件或二者組合而實施。各種說明性的元件,塊,模塊,電路和步驟一般根據(jù)其功能來敘述。這些功能性是否以硬件或軟件實施,則取決于具體應(yīng)用和全系統(tǒng)的結(jié)構(gòu)制約。熟練的技術(shù)人員認(rèn)識到在這些環(huán)境下硬件和軟件的互換性和怎樣為每個具體的應(yīng)用最好地實施所敘述的功能性。
作為一個實例,結(jié)合本文所公開的諸方面所敘述的各種說明性的邏輯塊,模塊和映射可以用一個執(zhí)行一組固件指令的處理器,專用集成電路(ASIC),一個場可編程門陣列(FPGA),或其他可編程邏輯設(shè)備,離散門或晶體管邏輯,離散硬件元件,諸如寄存器,任何常規(guī)的可編程軟件模塊和處理器,或任何設(shè)計成執(zhí)行本文敘述的功能的以上設(shè)備的組合來實施或執(zhí)行。VAD模塊400和FE模塊600可以有利地在一個微處理器中運行,但另外,VAD模塊400和FE模塊600可以在任何常規(guī)的處理器,控制器,微控制器或狀態(tài)機器中運行。模板可以位于RAM存儲器,閃存,ROM存儲器,EPROM存儲器,EEPROM存儲器,寄存器,硬盤,可卸盤,CD-ROM中,或在技術(shù)上已知的任何其他形式的存儲媒介中。存儲器(未顯示)可以集成到任何上述處理器(未顯示)中。處理器(未顯示)和存儲器(未顯示)可以置于一個ASIC(未顯示)中。ASIC可以置于一個電話中。
提供本發(fā)明實施例的上述敘述是為了是在本技術(shù)領(lǐng)域熟練的任何人員能實施或利用本發(fā)明。對這些實施例的各種修改對本技術(shù)領(lǐng)域的熟練人員而言是容易的和顯而易見的,本文定義的通用原理不需創(chuàng)造性技能就可以應(yīng)用到其他方面。這樣,本發(fā)明并不意圖限制到本文顯示的方面上,而是使其具有與本文公開的原理和新穎特征一致的最寬廣的范圍。
權(quán)利要求
1.一種將和一個通話信號有關(guān)的被探測的聲音活動信息提供到一個遠(yuǎn)程設(shè)備的方法,包括收集和所述通話信號有關(guān)的被探測的聲音活動信息;識別和所述通話信號有關(guān)的特征收集信息;選擇性地利用所述被探測的聲音活動信息和所述特征收集信息以形成高級前端數(shù)據(jù);和將包括被探測的聲音活動信息的高級前端數(shù)據(jù)提供到遠(yuǎn)程設(shè)備。
2.如權(quán)利要求1所述的方法,其特征在于,其中所述特征收集信息識別包括收集一組相應(yīng)于該通話信號段的特征。
3.如權(quán)利要求1所述的方法,其特征在于,其中所述收集,識別和選擇性地利用在用戶設(shè)備上進行。
4.如權(quán)利要求3所述的方法,其特征在于,其中提供包括除去寂靜段和提供無寂靜的通話段至遠(yuǎn)程設(shè)備的用戶設(shè)備。
5.如權(quán)利要求3所述的方法,其特征在于,其中提供包括用戶設(shè)備將包括寂靜的所有通話傳輸?shù)竭h(yuǎn)程設(shè)備;用戶設(shè)備傳輸至少一個寂靜區(qū)存在的指示;和遠(yuǎn)程設(shè)備把通話段與寂靜分離并利用該通話段。
6.如權(quán)利要求5所述的方法,其特征在于,其中該至少一個指示在一個和一個通話傳輸信道分離的信道中傳輸。
7.如權(quán)利要求1所述的方法,進一步包括基本與特征收集識別平行地收集被探測的聲音活動信息。
8.如權(quán)利要求7所述的方法,其特征在于,其中當(dāng)特征收集識別指出寂靜區(qū)域時聲音探測活動在較低速率上加以量化。
9.如權(quán)利要求7所述的方法,其特征在于,其中被探測的聲音活動信息收集包括確定一個聲音活動矢量,段收集包括確定一個特征矢量,該方法進一步包括并置聲音活動矢量和特征矢量以處理和確定高級前端特征。
10.如權(quán)利要求1所述的方法,其特征在于,其中特征收集識別包括確定一個特征矢量。
11.如權(quán)利要求10所述的方法,其特征在于,其中所述確定包括探測語音活動和在探測語音活動時計算一個和丟失的幀相應(yīng)的平均特征矢量;和在傳輸通話幀之前傳輸丟失的全部數(shù)量的幀。
12.一種用于傳輸語音活動的設(shè)備,包括一個聲音活動探測器;一個基本和聲音活動探測器并行工作的特征收集器;一個發(fā)送器;和一個接收裝置;其中特征收集器和聲音活動探測器的工作從通話中收集特征并從通話中探測聲音活動信息,并且選擇性地利用收集的特征和探測的聲音活動信息形成高級前端數(shù)據(jù)。
13.如權(quán)利要求12所述的設(shè)備,其特征在于,其中所述聲音活動探測器,所述特征收集器和所述發(fā)送器位于用戶單元。
14.如權(quán)利要求13所述的設(shè)備,其特征在于,其中用戶單元除去寂靜段并將無寂靜的通話段提供到遠(yuǎn)程設(shè)備。
15.如權(quán)利要求13所述的設(shè)備,其特征在于,其中用戶設(shè)備將包括寂靜的所有通話傳輸?shù)竭h(yuǎn)程設(shè)備;用戶設(shè)備傳輸至少一個指示,該指示為至少一個寂靜區(qū)的指示;和遠(yuǎn)程設(shè)備把通話段與寂靜分開并利用該通話段。
16.如權(quán)利要求15所述的設(shè)備,其特征在于,其中該至少一個指示在和一個通話傳輸信道分開的信道上由發(fā)送器發(fā)送。
17.如權(quán)利要求12所述的設(shè)備,其特征在于,其中該設(shè)備對來自聲音活動探測器的聲音探測活動在特征收集指出寂靜區(qū)的環(huán)境下在一個較低速率上進行量化。
18.如權(quán)利要求12所述的設(shè)備,其特征在于,其中聲音活動探測器確定一個聲音活動矢量,特征收集器確定一個特征矢量。
19.如權(quán)利要求18所述的設(shè)備,其特征在于,其中該設(shè)備并置聲音活動矢量和特征矢量以處理和確定高級前端數(shù)據(jù)。
20.如權(quán)利要求12所述的設(shè)備,其特征在于,其中特征收集器確定一個特征矢量。
21.如權(quán)利要求20所述的設(shè)備,其特征在于,其中該設(shè)備計算一個和在探測語音活動時丟失的幀相應(yīng)的平均特征矢量并且在傳輸通話幀之前傳輸丟失的全部數(shù)量的幀。
22.一種將通話數(shù)據(jù)傳輸?shù)竭h(yuǎn)程設(shè)備的方法,包括從通話數(shù)據(jù)中收集聲音活動數(shù)據(jù);從通話數(shù)據(jù)中識別特征收集數(shù)據(jù);和以高級前端數(shù)據(jù)的形式將和所述聲音活動數(shù)據(jù)和所述特征收集數(shù)據(jù)有關(guān)的信息傳輸?shù)竭h(yuǎn)程設(shè)備。
23.如權(quán)利要求22所述的方法,其特征在于,其中所述特征收集數(shù)據(jù)識別包括收集一組和通話信號段相應(yīng)的特征。
24.如權(quán)利要求22所述的方法,其特征在于,其中所述收集和識別發(fā)生在用戶設(shè)備上。
25.如權(quán)利要求24所述的方法,其特征在于,其中選擇性信息傳輸包括除去寂靜段并將寂靜的通話段提供到遠(yuǎn)程設(shè)備的用戶設(shè)備。
26.如權(quán)利要求24所述的方法,其特征在于,其中選擇性信息傳輸包括用戶設(shè)備將包括寂靜的所有通話傳輸?shù)竭h(yuǎn)程設(shè)備;用戶設(shè)備傳輸至少一個寂靜區(qū)存在的指示;和遠(yuǎn)程設(shè)備把寂靜與通話段分離并利用該通話段。
27.如權(quán)利要求26所述的方法,其特征在于,其中該至少一個指示在一個和一個通話傳輸信道分離的信道中傳輸。
28.如權(quán)利要求22所述的方法,進一步包括基本上和特征收集數(shù)據(jù)識別并行的收集聲音活動數(shù)據(jù)。
29.如權(quán)利要求28所述的方法,其特征在于,其中當(dāng)收集和識別指出寂靜區(qū)時聲音活動數(shù)據(jù)在一個較低速率上加以量化到高級前端數(shù)據(jù)。
30.如權(quán)利要求28所述的方法,其特征在于,其中聲音活動探測包括確定一個聲音活動矢量,特征收集包括確定一個特征矢量,該方法進一步包括并置聲音活動矢量和特征矢量以處理和確定延伸的特征。
31.如權(quán)利要求22所述的方法,其特征在于,其中特征節(jié)段收集包括確定一個特征矢量。
32.如權(quán)利要求31所述的方法,其特征在于,其中所述確定包括探測語音活動和在探測語音活動時計算一個和丟失的幀相應(yīng)的平均特征矢量;和在傳輸通話幀之前傳輸丟失的全部數(shù)量的幀。
全文摘要
一種在分布式語音識別系統(tǒng)中傳輸語音活動的系統(tǒng)和方法。該分布式語音識別系統(tǒng)包括一個在用戶單元(102)上的本地VR引擎和一個在服務(wù)器(160)上的服務(wù)器VR引擎。本地VR引擎包括一個從通話信號收集特征的高級特征收集(AFE)模塊(104),和一個在通話信號中探測聲音活動的聲音活動探測(VAD)模塊(106)。把來自VAD模塊(106)和特征收集模塊(104)的組合結(jié)果以高級前端特征的形式高效率地提供到一個遠(yuǎn)程設(shè)備,諸如一個服務(wù)器(160),從而使服務(wù)器(160)能夠處理沒有寂靜區(qū)的通話段。本發(fā)明公開了有效通話段傳輸諸方面。
文檔編號G10L11/00GK1543640SQ02815951
公開日2004年11月3日 申請日期2002年6月13日 優(yōu)先權(quán)日2001年6月14日
發(fā)明者H·加魯達(dá)德里, H 加魯達(dá)德里 申請人:高通股份有限公司