專利名稱:具有多個話音識別引擎的話音識別系統(tǒng)和方法
背景技術:
1.發(fā)明領域本發(fā)明一般涉及通信領域,尤其涉及一種新穎改進的話音識別系統(tǒng)和方法。
2.相關技術話音識別(VR)是賦與設備識別用戶或用戶話音命令并且為人機接口提供方便的仿真智能的一種最重要技術。VR還是理解人類語言的關鍵技術。利用從語言聲信號恢復語言消息的技術的系統(tǒng)稱為話音識別器。這里所用術語“話音識別器”的含義一般為任何啟用口語用戶接口的裝置。話音識別器通常包含聲處理器、特征提取器和詞譯碼器。聲處理器提取達到輸入原語言語音識別所需的信息承載特征或矢量序列。詞譯碼器對特征或矢量序列進行譯碼,以得到與輸入發(fā)音對應的所期望含義清楚的輸出格式,諸如語言詞匯序列。
聲處理器相當于話音識別器的前端話音分析子系統(tǒng)。聲處理器對輸入話音信號作出響應,提供反映時變話音信號特征的適當表示。該處理器丟棄無關信息,諸如背景噪聲、信道失真、說話者特征和談吐方式。有效的聲處理給話音識別器提供強化的聲鑒別能力。結果,這時要分析的有用特征是短時間頻譜包絡。表征短時間頻譜包絡常用的兩種頻譜分析技術是線性預測編碼(LPC)和基于濾波器組的頻譜模擬。美國專利號5414796的專利和L.B.Rabiner與R.W.Schafer的著作中闡述了示范的LPC技術,前者的題目為“VARIABLE RATEVOCODER”,后者的標題為《話音信號數字處理》(396~453頁,1978),前者轉讓給本發(fā)明受讓人,兩者均經參考充分編入本說明中。
由于為了安全,VR(還常稱為語言識別)越來越重要。例如,VR可用于代替人工按壓無線電話鍵盤按鈕的工作。用戶一面駕駛汽車一面始發(fā)電話呼叫時,此功能尤為重要。使用無VR的話機,則按壓按鈕進行撥號呼叫時,駕駛者必須從駕駛盤騰出一只手并查看話機鍵盤。這些動作增加車禍的可能性。啟用話音的話機(即設計成話音識別的話機)會使駕駛者可在進行電話呼叫的同時,繼續(xù)監(jiān)視路面。免提汽車套件系統(tǒng)還會使駕駛者可在起始呼叫時兩手撐握駕駛盤。
話音識別裝置分為說話者依賴(SD)型裝置和說話者獨立(SI)型裝置。前者較普通,訓練成識別來自特定用戶的命令。反之,后者能受理任何用戶的話音命令。為了提高給定VR系統(tǒng)的性能,說話者依賴型和說話者獨立型都需要訓練,使系統(tǒng)配備有效參數。換句話說,系統(tǒng)在其能最佳作用前,需要學習。
說話者依賴型VR裝置通常按兩階段工作訓練階段和識別階段。訓練階段中,VR系統(tǒng)提示用戶說1次或2次(通常2次)系統(tǒng)詞匯中的各詞,以便系統(tǒng)能學習用戶說這些特定詞和短語的特征。免提汽車套件示范詞匯可包含鍵盤數字;關鍵詞“呼叫”、“發(fā)送”、“撥號”、“取消”、“清除”、“增加”、“刪去”、“歷史”、“程序”、 “是”和“否”;常來往同事、朋友或家庭成員的預定電話號碼的名字。一旦完成訓練,用戶就能通過說出訓練的關鍵詞在識別階段始起呼叫,該階段VR裝置通過比較所說的發(fā)音與先前訓練的發(fā)音(作為模板存儲)進行最佳匹配,而加以識別。例如,名“約翰”是一個訓練名,則用戶通過說短語“呼叫約翰”發(fā)出呼叫。VR系統(tǒng)會識別“呼叫”和“約翰”這些詞,并撥出用戶已預先作為約翰的電話號碼輸入的號碼。訓練的系統(tǒng)和方法說話者獨立型VR裝置也采用訓練模板,其中包含預定規(guī)模的預先記錄詞匯庫(例如某些控制詞、0至9的號碼、是和否)。必須使說話者說出詞匯中的各詞,并對大量說話者(例如100個)進行記錄。說話者獨立型VR的一個例子是動態(tài)時間偏差(DTW)引擎,代理人檔案號PA000017的美國專利申請中闡述該引擎,該申請在2000年6月13日提出,題目為“METHOD AND APPARATUS FORCONSTRUCTING VOICE TEMPLATES FOR A SPEAKER-INDEPENDENT VOICERECOGNITION SYSTEM”,轉讓給本發(fā)明受讓人,經參考充分編入本說明中。
不同的說話者獨立型VR可給出不同的結果。例如,說話者獨立(SI)型隱型馬爾可夫模型(HMM)引擎可給出與說話者獨立型動態(tài)時間偏差(DTW)引擎不同的結果。組合這兩種引擎的結果能得到優(yōu)于僅用一種引擎的結果的高識別準確性和低拒收率系統(tǒng)。
說話者依賴型VR和說話者獨立型VR可給出不同的結果。說話者依賴型引擎用屬于特定用戶的模板進行識別。說話者獨立型引擎用借助來自用戶群體的范例產生的模板進行識別。由于說話者專用模板較接近給定用戶說話風格,SD引擎提供比SI引擎高的準確性。然而,SI引擎具有使用系統(tǒng)前用戶不必經歷“訓練過程”的優(yōu)點。
期望一種組合不同類引擎的系統(tǒng)和方法。組合說話者依賴型VR與說話者獨立型VR,會提供強化的準確性,并且利用輸入話音信號中數量較多的信息。因此,希望一種分析來自說話者依賴型VR和說話者獨立型VR的不同結果的系統(tǒng)和方法。
發(fā)明概述所述實施例針對一種利用組合話音識別引擎的話音識別系統(tǒng)和方法。其一個方面中,將聲處理器配置成從發(fā)音的數字化話音取樣提取話音參數;使多個話音識別引擎連接聲處理器,每一話音識別引擎產生一假設;判決邏輯將這些話音識別引擎產生一假設;判決邏輯將這些話音識別引擎的假設作為輸入,并且選擇一種假設。
另一方面中,提供一種組合多個話音識別引擎來改善話音識別的方法。該方法有利的是包含由聲處理器從發(fā)音的數字化話音取樣提取話音參數;使多個話音識別引擎連接該聲處理器;從各話音識別引擎產生假設;從由多個話音識別引擎產生的假設中選擇一個假設。
一實施例中,組合一些說話者獨立型話音識別引擎。另一實施形態(tài)中,組合一些說話者依賴型話音識別引擎。又一實施例中,將說話者依賴型話音識別引擎與說話者獨立型話音識別引擎組合。
一實施例中,說話者獨立型話音識別引擎是動態(tài)時間偏差話音識別引擎。一實施例中說話者獨立型話音識別引擎是隱藏馬爾可夫模型。一實施例中,說話者依賴型話音識別引擎是動態(tài)時間偏差話音識別引擎。一實施例中,說話者依賴型話音識別引擎是隱藏馬爾可夫模型。
從以下結合附圖的詳細說明會進一步明白本發(fā)明的特征、目的和優(yōu)點。各附圖的相同的參考字符均作相同標識,其中圖1示出一種話音識別系統(tǒng);圖2示出聲處理器的組成單元;圖3示出DTW-SD特征提取器、DTW-SD匹配模塊和DTW-SD模板模塊;
圖4示出DTW-SI特征提取器、DTW-SI匹配模塊和DTW-SI模板模塊;圖5示出HMM特征提取器、HMM-SI匹配模塊和HMM-SI模板模塊;圖6示出一實施例中判決邏輯模塊的組件;圖7示出一實施例中無說話者適配的命令詞組合引擎邏輯的流程圖;圖8示出有說話者適配的命令詞組合引擎邏輯的流程圖;圖9示出有說話者適配的命令詞和名標的組合引擎邏輯的流程圖。
詳細說明一實施例中,話音識別系統(tǒng)100具有3種能完成弧立詞識別任務的話音識別引擎動態(tài)時間偏差說話者獨立(DTW-SI)型引擎、動態(tài)時間偏差說話者依賴(DTW-SD)型引擎和隱型馬爾可夫模型(HMM)引擎。這些引擎用于識別命令詞和數字,為諸如移動電話等手持裝置完成的常見任務提供豐富的口語用戶接口。另一實施例中,話音識別系統(tǒng)100包含DTW-SI引擎和DTW-SD引擎。又一實施例中,話音識別系統(tǒng)100包含DTW-SI引擎和HMM引擎。一實施例中,HMM引擎是說話者獨立型的。另一實施例中,HMM引擎是說話者依賴型的。
根據一實施例,如圖1所示,話音識別系統(tǒng)100包含模/數變換器(A/D)102、前端聲處理器104、特征提取器106、108和110、話音模板數據庫112、114和116、匹配邏輯118、120和122以及判決邏輯124。一具體實施例中,將聲處理器104以及特征提取器106、108和110做成一個裝置,例如參數提取器。
A/D 102連接聲處理器104。聲處理器104連接特征提取器106、108和110。DTW-SD特征提取器106連接DTW-SD匹配邏輯118。DTW-SI特征提取器108連接DTW-SI匹配邏輯120。HMM特征提取器110連接HMM匹配邏輯122。DTW-SD話音模板數據庫112連接DTW-SD匹配邏輯118。DTW-SI話音模板數據庫114連接DTW-SI匹配邏輯120。HMM話音模板數據庫116連接HMM匹配邏輯122。DTW-SD匹配邏輯118、DTW-SI匹配邏輯120和HMM匹配邏輯122都連接判決邏輯124。
另一實施例中,話音識別系統(tǒng)100包含DTW-SD特征提取器106和DTW-SI特征提取器,但不包含HMM-SI特征提取器110。又一實施例中,該系統(tǒng)100包含DTW-SI特征提取器108和HMM-SI特征提取器110,但不包含DTW-SD特征提取器106。再一實施例中,該系統(tǒng)100包含DTW-SD特征提取器106和HMM-SI特征提取器110,但不包含DTW-SI特征提取器108。
話音識別子系統(tǒng)100可駐留于無線電話或免提汽車套件。用戶(未示出)說一詞或一個短語,以產生話音信號,該話音信號用常規(guī)換能器(未示出)變換成電話音信號S(t),供給A/D 102,它根據諸如A律或μ律脈沖碼編調制(PCM)等公知取樣方法將該話音信號變換成數字話音取樣S[n]。一實施例中,通常每一秒有N個16位話音取樣。因此,對8000Hz和16000Hz的取樣頻率,N分別等于8000和16000。
話音取樣S[n]供給聲處理器104,以判定參數。聲處理器104產生模擬輸入話音信號S(t)的一組參數??砂凑斩喾N公知話音參數判定技術中的任一種判定這些參數,該方法包含例如上述美國專利號5414796和Lawrence Rabiner與Biing-Hwang Juang著《話音識別基礎》(1993)所說明的話音編碼器編碼、基于離散傅里葉變換(DFT)的對數倒譜系數(例如基于快速傅里葉變換(FFT)的倒譜系數)、線性預測系數(LPC)或巴克標度分析。該組參數有利地是基于幀(分段成周期性的幀)的。聲處理器104可實現成數字信號處理器(DSP)。該DSP可包含話音編碼器。或者,聲處理器104可實現成話音編碼器。
圖2示出本發(fā)明一實施例的聲處理器104中各組成單元。聲處理器104包含成幀模塊130、預加重模塊132、開窗模塊134、快速傅里葉變換(FFT)模塊136、幅度頻譜模塊138和巴克標度模塊140。一實施例中,成幀模塊130對來自A/D變換器的話音取樣編幀。該模塊130將話音取樣編成每10毫秒一個的重疊分組,每分組具有128至256個PCM取樣。
預加重模塊132是處理來自成幀模塊130的幀的濾波器。一實施例中,通過諸如y(n)=x(n)-ax(n-1)的預加重濾波器處理這些幀。一實施例中,“a”的值等于0.95至0.99。
預加重后的信號通過開窗模塊134。該模塊134是提供濾波所得幀的窗取樣的開窗功能件。一實施例中,該開窗功能建立漢明窗。另一實施例中,該開窗功能建立梯形窗。本領域的技術人員會理解,可用本領域公知的任何開窗功能。例如,可用L.B.Rabiner與L.Y.Juang著《話音識別基礎》(1993)所述的漢明窗,該著作經參考充分編入本說明中。開窗功能防止成幀所造成附加寄生頻率分量的負面影響。
FFT模塊136將來自開窗模塊134的各窗取樣分組變換到頻域。FFT模塊136進行快速傅里葉變換。一實施例中,按照A=SQRT(X*2+Y*2)計算各分組的幅度頻譜,其中A是幅度頻譜,X和Y分別是FFT的實數部分和虛數部分。
幅度頻譜模塊138按線性頻率標度產生信號的頻譜特性。巴克標度模塊140將線性頻率標度變換成稱為巴克標度的近似對數頻率標度。128取樣分組有64個頻箱,從而256取樣分組有128個頻箱。幅度頻譜模塊138在與各幅度頻譜對應的16個巴克標度箱中產生結果。即,幅度頻譜模塊138產生話音信號的16個巴克幅度,每10毫秒一個。
一實施例中,DTW-SI特征取樣器和DTW-SD特征提取器相同。圖3根據一實施例示出DTW-SD特征提取器106、DTW-SD匹配模塊156和DTW-SD模板模塊158。圖4示出DTW-SI特征提取器108、DTW-SI匹配模塊166和DTW-SI模板模塊168。
DTW-SD和DTW-SI的特征提取器分別包含終點檢測器150和160、時間群集話音分段模塊152和162以及幅度量化器154和164。另一實施例中,DTW-SD特征提取器106還包含DTW-SD匹配模塊156和DTW-SD模板158。另一實施例中,DTW-SI特征提取器108還包含DTW-SI匹配模塊166和DTW-SI模板168。
一實施例中,在DTW-SD特征提取器106內,終點檢測器150連接時間群集話音分段模塊152,而該模塊152連接幅度量化器154。該量化模塊154連接DTW-SD匹配模塊156,而該模塊156連接DTW-SD模板模塊158。另一實施例中,幅度量化器154連接DTW-SD模板模塊158。該模塊158包含DTW-SD模板。另一實施例中,在訓練階段建立DTW-SD模板,在該階段對輸入話音信號訓練DTW-SD部分,并提供DTW-SD模板。另一實施例中,在系統(tǒng)典型使用期間,用DTW-SI引擎(即DTW-SI特征提取器108)“隱含”地產生DTW-SD模板。這些實施例中,只要適當組合來自DTW-SI引擎和DTW-SD引擎的結果,系統(tǒng)就具有DTW-SD引擎和DTW-SI引擎兩者的優(yōu)點。美國專利申請09/248513、09/255891和QCPA000017中說明示范的訓練系統(tǒng)和方法,這些申請分別在1999年2月8日、1999年1月4日和2000年7月13日提出,題目分別為“VOICE RECOGNITIONREJECTION SCHEME”、“SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITIONOF SPEECH SIGNALS”和“METHOD AND APPARATUS FOR CONSTRUCTING VOICETEMPLATES FOR A SPEAKER-INDEPENDENT VOICE RECOGNITION SYSTEM”,均轉讓給本發(fā)明受讓人,經參考均充分編入本說明中。
一實施例中,在DTW-SI特征提取器108內,終點檢測器160連接時間群集話音分段模塊162,而該模塊162連接幅度量化器164。該量化模塊164連接DTW-SI匹配模塊166,而該模塊166連接DTW-SI模板模塊168。DTW-SI模板模塊158包含在訓練階段建立的DTW-SI模板,該階段對輸入話音信號訓練系統(tǒng)的DTW-SI部分。
圖5中示出另一實施例,其中示出HMM特征提取器110、HMM-SI匹配模塊176和HMM-SI模板模塊178。HMM特征提取器110包含對數模塊170、RASTA處理模塊172和倒譜變換模塊174。對數模塊170連接RASTA處理模塊172,而該模塊172連接倒譜變換模塊174。SI隱型馬爾可夫模型(HMM)引擎。該SI-HMM引擎工作在倒譜域。對數模塊170將馬克幅度變換成對數標度。用RASTA處理模塊172內的帶通濾波器對巴克對數信號進行濾波。本領域的技術人員會理解,可用本領域公知的任何RASTA處理。美國專利號5450522的專利中闡述示范的RASTA處理,該專利題目為“AUDITORY MODEL FOR PARAMETRIZATION OF SPEECH”,授予Hermansky等人。
一旦將巴克算法加以濾波,就在倒譜變換模塊174內進行余弦變換。一實施例中,用維特比譯碼器將得到的特征矢量與目標詞的HMM模型(即HMM-SI模板)對比,求最佳匹配。在訓練處理期間產生目標詞的HMM模型,該期間還產生男女說話者獨立的模型。
參數的各幀供給特征提取器106和108,其中終點檢測器150和160用提取的參數檢測發(fā)音(即詞)的終點。一實施例中,有利地按照美國專利申請?zhí)?9/246414的申請中所述的方法進行終點檢測,該申請在1999年2月8日提出,題目為“METHOD AND APPARATUS FOR ACCURATE ENDPOINTING OF SPEECH IN THEPRESENCE OF NOISE”,轉讓給本發(fā)明受讓人,經參考充分編入本說明中。根據此方法,將發(fā)音與諸如信噪比(SNR)門限值之類的第1門限值比較,以判定該發(fā)音的第1起點和第1終點。第1起點前面的發(fā)音部分則與第2 SNR門限值比較,以判定該發(fā)音的第2起點。然后,第1終點后面的發(fā)音部分與第2 SNR門限值比較,以判定該發(fā)音的第2終點。周期性重復計算第1和第2 SNR門限值有利,并且第1 SNR門限值有利地應大于第2 SNR門限值。
將檢測發(fā)音用的頻域參數幀供給時間群集話音分段模塊152、162。根據一實施例,該模塊實現美國申請序列號09/255891的專利申請中說明的壓縮方法,該申請在1999年1月4日提出,題目為“SYSTEM AND METHOD FOR SEGMENTATIONAND RECOGNITION OF SPEECH SIGNALS”,轉讓給本發(fā)明受讓人,經參考充分編入本說明中。根據該方法,用話音幀關聯的至少一個頻譜值表示頻域參數中的各話音幀。然后,對每對相鄰幀判定頻譜差值。該差值代表2個成對幀所關聯頻譜值之間的差。在每對相鄰幀之間建立初始群集邊界,形成參數群集,并且給各群集分配方差值。該方差值有利地等于所定頻譜差值中的一個。然后,計算多個群集歸并參數,各群集歸并參數與一對相鄰群集關聯。從多個群集歸并參數選擇一個最小群集歸并參數。然后,通過取消該最小群集歸并參數所關聯群集之間的群集邊界并且給歸并群集分配歸并方差值,而形成歸并群集。該歸并方差值代表與最小群集歸并參數關聯的群集分配到的方差值。重復此處理過程有利,以便形成多個歸并群集。根據該多個歸并群集形成分段話音信號有利。
本領域的技術人員會理解??捎弥T如時間歸一化模塊的其他裝置代替時間群集話音分段模塊152、162。然而,熟練技術人員也會理解,由于時間群集話音分段模塊152、162將與前幀相比差值最小的幀歸并成群集,并且采用均值而不是個體幀,所以時間群集話音分段模塊118利用了所處理發(fā)音中較多的信息。還會理解,結構判決邏輯124中的模式比較邏輯最好和時間群集話音分段模塊152、162一起使用。
本發(fā)明一實施例中,判決邏輯模塊124利用本領域公知的動態(tài)時間偏差(DTW)模型。本發(fā)明另一實施例中,該模塊124利用HMM模型。再一實施例中,該模塊124利用DTW模型和HMM模型。
將群集均值供給話音電平歸一化器,即幅度量化器154、164。一實施例中,幅度量化器154、164通過給各群集均值分配每信道2位(即每頻率2位),對話音幅度進行量化。在提取倒譜系數的另一實施例中,技術人員會理解,不用幅度量化器154、164量化群集均值。特征提取器106、108將幅度量化器154、164產生的輸出供給判決邏輯124。
在模板數據庫158、168、178中存儲語音識別子系統(tǒng)100中全部詞匯內的詞的模板集。一實施例中,借助說話者獨立型模板建立子系統(tǒng)構建該模板集。模板數據庫158、168、178有利地實現成常規(guī)形式的非易失性存儲媒體(諸如閃存),這樣使模板可在話音識別子系統(tǒng)100斷電時保留在模板數據庫158、168、178中。
一實施例中,判決邏輯124包含DTW-SD判決邏輯188、DTW-SI判決邏輯190和HMM判決邏輯192,其中DTW-SD判決邏輯188連接DTW-SD匹配模塊118,DTW-SI判決邏輯190和HMM判決邏輯192分別連接DTW-SI匹配模塊120和HMM匹配模塊122,如圖6所示。另一實施例中,使DTW-SD判決邏輯188、DTW-SI判決邏輯和HMM-SI判決邏輯統(tǒng)一。本領域的技術人員會理解,能按任何組合配置判決邏輯188、190、192。
各引擎的匹配模塊118、120、122將來自其特征提取器106、108、110的矢量與各模板數據庫112、114、116存儲的全部模板分別比較。將矢量與模板數據庫112、114、116所存儲全部模板之間的比較結果或距離分別供給各自的判決邏輯188、190、192。該判決邏輯188、190、192從各自的模板數據庫112、114、116選擇與矢量最接近匹配的模板?;蛘?,判決邏輯188、190、192可用常規(guī)“N個最佳”選擇算法,在預定匹配門限內選擇N個最接近的匹配。然后,尋問用戶想要哪個選擇。判決邏輯188、190、192的輸出是關于說出的是詞匯中哪個詞的判決。
一實施例中,DTW匹配模塊118、120和判決邏輯188、190用DTW法進行收斂測試。DTW法在本領域已公知,Lawrence Rabiner與Biing-Hwang Huang的著作中也闡述,該著作名為《話音識別基礎》(200~238頁,1993),經參考充分編入本說明中。根據DTW法,通過標畫測試的發(fā)音時間序列與模板數據庫108所存儲各發(fā)音的時間序列,形成格網。然后,每次一個發(fā)音,逐點(例如每10ms)比較受測試的發(fā)音與模板數據庫108中的每一發(fā)音。對模板數據庫108中的每一發(fā)音,及時調整受測試的發(fā)音,或使其產生“偏差”,在特定點進行壓縮或擴展,直到取得與模板數據庫108中的發(fā)音最接近的匹配。在每一時間點比較2個發(fā)音,并且在該點申明匹配(零代價),或者申明失配。如果在某一點失配,對受測試的發(fā)音進行壓縮、擴展,或需要時使其失配。繼續(xù)此處理過程,直到兩種發(fā)音相互比較完??赡苡写罅坎煌{整的發(fā)音(通常有成千上萬種)。選擇最低代價功能(即要求數量最少的壓縮和/或擴展和/或失配)的調整發(fā)音。在類似于維持比譯碼算法的方式中,通過從模板數據庫108中,發(fā)音的各點后向查看,以判定最低總代價通路,進行選擇有利。這使得可判定最低代價(即接近匹配)的調整發(fā)音,不必采取產生每一不同調整發(fā)音的“強力”方法。然后,比較模板數據庫108中全部發(fā)音的最低代價調整發(fā)音,并選擇一個最低代價的發(fā)音,作為最接近地匹配所測試發(fā)音的存儲發(fā)音。
盡管HMM系統(tǒng)中DTW匹配方案118、120和維特比譯碼等效,DTW引擎和HMM引擎利用不同的前端方案(即特征提取器)給匹配級提供特征矢量。因此,DTW引擎和HMM引擎的錯誤模式很不同。具有組合引擎的話音識別系統(tǒng)100利用誤差模式中的差別。通過適當組合來自兩種引擎的結果,可達到較高的總識別準確性。更重要的是,可達到所期望識別準確性的較低拒收率。
在獨立的話音識別系統(tǒng)中,可將發(fā)音與目標詞匹配的概率寫為P(Wi,X)=max(∏exp((ij-xj)/σj)2)Wi是用一組平均矢量Λi和方差σj模擬的目標詞i。除Wi外,還有無用單元模型Wg。如果發(fā)音X不對應于詞匯中的任何詞Wi,預計Wg給出很低的代價,這意味著發(fā)音X是無用單元,不是詞匯中的任何詞。在訓練處理期間建立Wg。本領域的技術人員會理解??捎帽绢I域公知的任何無用單元建模方案。
發(fā)音X是特征矢量Xj的系列。一實施例中,DTW方案內,方差σj為1,最小化常在20幀上進行(即j=1…20)。最小化是選擇具有最小代價的詞假設的處理過程。一個假設是一個詞、標記或者詞串或標記串。標記是與短語、詞或子詞對應的話音段。
一實施例的HMM方案中,j=1…N,其中N為發(fā)音長度。此外,建模中不是采用單位矢量,而是采用對角協方差矢量。
DTW與HMM之間除上述兩點不同外,DTW引擎和HMM引擎都產生各目標詞的概率度量。這意味著DTW概率(PDTW(Wi、X))與HMM概率(PHMM(Wi、X)相乘的容量使兩種引擎上的概率最大。實際上,不是使該概率最大,而是對計算效率使發(fā)音X與詞Wi匹配的代價最小。該代價定義為C(Wl,X)=-Log(P(Wi,X))=min(∑((ij-xj)/σj)2)因此,發(fā)音X與詞Wi匹配的組合代價為C(Wl,X)=CDTW(Wi,X)+γ*CHMM(Wi,X)其中γ是變換因數。這類似于大型詞匯口授系統(tǒng)中用的語言建模代價,該系統(tǒng)用適當的變換因數組合聲模代價和語言模型代價。
一實施例中,組合操作相同詞匯集的說話者獨立型話音識別引擎。另一實施例中,組合一些說話者依賴型話音識別引擎。又一實施例中,將說話者獨立型話音識別引擎與說話者依賴型話音識別引擎組合,這兩種引擎都用相同的詞匯集工作。再一實施例中,說話者獨立型話音識別引擎與說話者依賴型話音識別引擎組合,這兩種引擎用不同的詞匯集工作。
圖7示出一實施例中無說話者適配的引擎邏輯組合流程圖。說話者適配是模板的顯性或隱性訓練。
γ=20/N,N為幀中發(fā)音持續(xù)時間。
D(i)=DTW假設i的代價
H(i)=HMM假設i的代價C(i)=組合假設i的代價Δ(D)=DTW增量代價=D(2)-D(1)Δ(H)=HMM增量代價=H(2)-H(1)Δ(C)=組合增量代價=C(無用單元)-C(1)計算Δ(C)時采用無用單元代價。
第1級200中,算法進行校驗,查看DTW和HMM是否首位候選相同。對門限T1的總增量代價用作邊界校驗202。如果DTW首位候選與HMM首位候選一致,DTW假設和HMM假設都得到受理。不一致,則控制流程至第2級204。
第2級204中,算法恢復DTW正確且HMM為第2佳的發(fā)音。第2級204中,進行校驗,查看DTW首位候選是否與第2HMM候選一致。如果一致,受理DTW假設。不一致,則控制流程進至第3級208。用DTW增量代價門限T2作為邊界校驗206。
第3級208中,算法恢復HMM正確且DTW為第2最佳的發(fā)音。第3級208中,算法進行校驗,查看HMM候選是否與第2DTW候選一致。如果一致,受理HMM假設。不一致,則控制流程進至第4級212。用HMM增量代價門限T3作為邊界校驗210。
第4級212中,按適當地比例變換組合DTW和HMM的評分。第4級212中,進行校驗,查看Δ(C)是否大于門限T4以及首位組合假設是否與DTW首位假設或HMM首位假設相同。如果相同,受理組合假設。不同,則進至第5級216。為了計算組合增量代價,由于兩種引擎建議的詞不必相同,算法采用無用單元代價。作為邊界校驗,算法證實首位候選與DTW或HMM的首位候選匹配。
第5級216中,算法校驗僅基于DTW的拒收,該拒收基于DTW代價、增量代價和無用單元代價。平臺中僅加載DTW模板時,此級還按照單拒收方案進行工作。如果DTW拒收方案的條件成立,受理首位DTW假設。該條件不成立,則控制流程進至第6級220。首位候選的代價小于門限T5且增量DTW代價Δ(C)大于門限T6時,DTW拒收方案的條件成立。
第6級220中,算法校驗僅基于HMM的拒收,該拒收基于HMM代價、增量代價和無用單元代價。平臺中僅加載HMM模板時,此級還按照單拒收方案進行工作。如果HMM拒收方案的條件成立,受理首位HMM假設。該條件不成立,則控制流程進至第7級226。首位候選的代價小于門限T7且增量HMM代價Δ(H)大于門限T8時,HMM拒收方案的條件成立。
美國專利申請09/248513中說明示范的拒收方案,該申請在1999年2月8日提出,題目為“VOICE RECOGNITION REJECTION SCHEME”,轉讓給本發(fā)明受讓人,經參考充分編入本說明中。
一實施例中,組合引擎邏輯用于命令詞,并且具有說話者適配。圖8根據一實施例示出具有說話者適配的命令詞組引擎組合邏輯的流程圖。S(.)相當于來自說話者依賴型引擎的說話者適配結果。C(.)相當于來自無適配組合引擎的說話者獨立型結果。A(.)相當于歸并SI和SA的結果以及重新排序假設。
第1級230中,算法進行校驗,查看C(1)和S(1)是否首位候選相同。對門限T9的總增量代價用作邊界校驗。如果C(1)首位候選與S(1)首位候選一致,C(1)假設和S(1)假設都得到受理232。不一致,則控制流程至第2級234。
第2級234中,算法校驗是否說話者適配模板少于2個。如果該模板少于2個,控制流程受理說話者獨立型假設236。否則,控制流程進至第3級238。
第3級238中,應用DTW拒收方案。如果DTW拒收方案的條件成立,算法受理說話者適配假設240。該條件不成立,則控制流程進至第4級242。
第4級242中,將Δ(A)與門限T10比較。如果Δ(A)大于門限T10且A(1)=D(1)、H(1)或S(1),受理組合假設244。否則,拒收組合假設246。
說話者適配模板少于2個時,對組合SI引擎提供較大的加重。該模板多于2個時,對SD引擎提供較大的加重。
另一實施例中,組合引擎邏輯用于命令詞和名標,并且具有說話者適配。名標是用戶收錄的詞匯詞。圖9根據一實施例示出具有說話者適配的命令詞和名標的組合引擎邏輯流程圖。
SD(.)相當于說話者依賴型引擎。C(.)相當于來自無適配組合引擎的說話者獨立型結果。T(.)相當于歸并SI和SD的結果以及重新排序假設。
第1級250中,算法進行校驗,查看C(1)和SD(1)是否首位候選相同。對門限T11的總增量代價用作邊界校驗。如果C(1)與SD(1)一致,受理命令252。不一致,則控制流程進至第2級254。
第2級254中,將Δ(C)與門限T12比較。如果Δ(C)小于門限T12,受理名標256。否則,控制流程進至第3級258。
第3級258中,應用DTW拒收方案。如果DTW拒收方案的條件成立,算法受理說話者獨立型命令260。該條件不成立,則控制流程進至第4級262。
第4級262中,將Δ(T)與門限T13比較。如果Δ(T)大于門限T13且T1等于D(1)、H(1)或SD(1),受理組合假設264。否則,拒收組合假設266。
混合方案中,說話者依賴型引擎產生名標假設。說話者獨立型引擎產生命令詞假設。此外,如果存在說話者適配模板,說話者依賴型引擎還產生命令詞假設。
通常存在幾十個名稱和幾個命令詞(諸如電話薄、重撥、話音存儲和電子郵件)。
用戶可以第1級說出名稱或命令詞。
無混合引擎時,用戶要說出“命令”并后續(xù)任務(例如呼叫—約翰·瓊斯,命令—電話薄)。有混合引擎,則用戶可說“約翰·瓊斯”或“電話薄”。這導致形成用戶接口。
用從說話者群體開發(fā)的發(fā)音組優(yōu)化組合SI邏輯、組合SA邏輯和組合混合邏輯用的門限Ti。一實施例中,人工完成該優(yōu)化。
另一實施例中,用諸如最小二乘極小化(LMS)處理之類的自動過程優(yōu)化門限Ti。一實施例中,自動過程把來自各引擎的頭N個假設都作為正確應答,并構建各假設的參數矢量。一實施例中,該矢量的例子是[Δ(D)Δ(Dg)Δ(H)Δ(Hg)],其中Δ(?)是所考慮假設和該引擎下一最佳假設之間的代價差。Δ(Dg)Δ(Hg)分別相當于所考慮假設與DTW引擎和HMM引擎的無用單元代價之間的代價差。
作為一個例子,考慮來自各引擎的頭2個假設。應答的候選最多有4個,其中僅一個是正確應答。訓練處理過程產生一組4個的加權a、b、c和d,這些加權使正確假設的加權和(a*Δ(D)+b*Δ(Dg)+C*Δ(H)+d*Δ(Hg))最大,使不正確假設的該加權和最小。
這樣,說明了一種組合話音識別引擎的新穎改進方法和設備。本領域的技術人員會理解,結合所揭示實施例闡述的各說明性邏輯塊、模塊和算法步驟可實現成電子硬件、計算機軟件或兩者的組合。根據各自的功能總地說明了各說明性部件、塊、模塊、電路和步驟。該功能實現成硬件還是軟件,取決于具體應用和對整個系統(tǒng)的設計約束條件。熟練技術人員懂得這些環(huán)境下軟硬件的互換性以及為各具體應用實現所述功能的最佳方法。作為例子,結合這里所揭示實施例闡述的各說明性邏輯塊、模塊和算法步驟可以用執(zhí)行固件指令集的處理器、專用集成電路(ASIC)、現場可編程門陣(FPGA)或其它可編程邏輯器件、分立門或晶體管邏輯、分立硬部件(諸如寄存器)、任何常規(guī)可編程軟件模塊和處理器,或者設計成完成這里所述功能的以上各項的組合來實現或完成。在微處理器中執(zhí)行特征提取器106、108和1110、匹配模塊118、120和122以及判決邏輯124有利,但替換方案中,可在任何常規(guī)處理器、控制器、微控制器或狀態(tài)機中執(zhí)行特征提取器106、108和110,匹配模塊118、120和122以及判決邏輯124模板可駐留于RAM存儲器、閃存、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、可拆卸盤片、CD-ROM或者本領域公知的任何其他形式的存儲媒體。如圖1所示,匹配模塊118、120、122有利地分別連接模板模塊112、114、116,以便分別從模板模塊112、114、116讀取信息。存儲器(未示出)可集成到任何上述處理器中。處理器和存儲器(未示出)可駐留于一ASIC(未示出)。該ASIC可駐留于電話。
提供以上本發(fā)明實施例的說明,使本領域的任何技術人員能制作或使用本發(fā)明。本領域的技術人員不難明白這些實施例的各種修改,并且這里規(guī)定的一般原理可用于其他實施例,而不需利用創(chuàng)造才干。因此,本發(fā)明不要受這里所示實施例的限制,但要符合與這里所揭示的原理和新穎特征一致的最大范圍。
權利要求
1.一種話音識別系統(tǒng),其特征在于包含配置成從發(fā)音的數字化話音取樣提取話音參數的聲處理器;連接該聲處理器的多個話音識別引擎,各話音識別引擎配置成產生一個假設;以及配置成將來自該話音識別引擎的假設作為輸入并且選擇一個假設的判決邏輯。
2.如權利要求1所述的話音識別系統(tǒng),其特征在于,多個話音識別引擎包含說話者獨立型話音識別引擎。
3.如權利要求1所述的話音識別系統(tǒng),其特征在于,多個話音識別引擎包含說話者依賴型話音識別引擎。
4.如權利要求2所述的話音識別系統(tǒng),其特征在于,多個話音識別引擎包含說話者依賴型話音識別引擎。
5.如權利要求4所述的話音識別系統(tǒng),其特征在于,多個話音識別引擎包含說話者獨立型動態(tài)時間偏差話音識別引擎。
6.如權利要求4所述的話音識別系統(tǒng),其特征在于,多個話音識別引擎包含說話者獨立型隱型馬爾可夫模型話音識別引擎。
7.如權利要求4所述的話音識別系統(tǒng),其特征在于,多個話音識別引擎包含說話者依賴型動態(tài)時間偏差話音識別引擎。
8.如權利要求4所述的話音識別系統(tǒng),其特征在于,多個話音識別引擎包含說話者依賴型隱型馬爾可夫模型話音識別引擎。
9.如權利要求4所述的話音識別系統(tǒng),其特征在于,多個話音識別引擎包含說話者依賴型動態(tài)時間偏差話音識別引擎和說話者獨立型動態(tài)時間偏差引擎。
10.一種話音識別方法,其特征在于包含用聲處理器從發(fā)音的數字化話音取樣提取話音參數;使多個話音識別引擎連接該聲處理器;從每一話音識別引擎產生一假設;從多個話音識別引擎產生的假設選擇一個假設。
11.如權利要求10所述的方法,其特征在于,還包含從多個話音識別引擎產生的假設選擇一個假設。
12.如權利要求10所述的方法,其特征在于,還包含從多個話音識別引擎產生的假設拒收一個假設。
全文摘要
一種組合話音識別引擎并分析個體話音識別引擎所得結果之差別的方法和系統(tǒng)。組合說話者獨立(SI)型隱型馬爾可夫模型(HMM)引擎、說話者獨立型動態(tài)時間偏差(DTW-SI)引擎和說話者依賴型動態(tài)時間偏差(DTW-SD)引擎。對這些引擎所得結果的組合和分析帶來一種比僅用一個引擎所得結果時識別準確性高且拒收率低的系統(tǒng)。
文檔編號G10L15/00GK1454380SQ01814592
公開日2003年11月5日 申請日期2001年7月17日 優(yōu)先權日2000年7月18日
發(fā)明者H·加魯達德里, D·P·歐瑟斯, 畢寧, Y·Y·齊 申請人:高通股份有限公司