專利名稱:強(qiáng)健型知覺語音處理系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明關(guān)于一種自動(dòng)語音辨識(shí)系統(tǒng),尤其是關(guān)于一種能夠改善自動(dòng)語音辨識(shí)系統(tǒng)的強(qiáng)健度的知覺語音處理系統(tǒng)。
背景技術(shù):
自動(dòng)語音辨識(shí)(ASR)系統(tǒng)已發(fā)展超過了三十年以上,并且已能于實(shí)驗(yàn)室中經(jīng)由諸項(xiàng)受控設(shè)定來實(shí)現(xiàn)高度的辨識(shí)準(zhǔn)確率。然而,在實(shí)際談話環(huán)境中針對(duì)不利狀況的強(qiáng)健度問題仍然存在,因?yàn)樵谡鎸?shí)的談話環(huán)境的中包含有背景的噪音、語音失真、以及個(gè)人特殊發(fā)音等特征的緣故。來自于人們說話與移動(dòng)、器械、機(jī)器、交通等等的背景噪音存在于幾乎是任何環(huán)境之中,例如在家中、辦公室中、車內(nèi)、或者是在公共場(chǎng)所之中。語音頻譜的失真則可能起因于頻率響應(yīng)、麥克風(fēng)的安裝位置、以及麥克風(fēng)的傳感器品質(zhì)等等,并且可能起因于信號(hào)傳輸線路的干擾。再者,每個(gè)說話人具有其自身獨(dú)特的發(fā)音習(xí)慣,甚至在針對(duì)同一說話人的情況下,由于該語音當(dāng)時(shí)的情緒反應(yīng)而將可能會(huì)造成聲調(diào)變化的發(fā)生(倫巴效應(yīng))。因此,自動(dòng)語音辨識(shí)系統(tǒng)必須足夠強(qiáng)健來對(duì)抗不利的說話環(huán)境,以便能夠?qū)崿F(xiàn)高度正確的語音辨識(shí)。
傳統(tǒng)式自動(dòng)語音辨識(shí)系統(tǒng)已通過使用具有相同的噪聲成份且從語音訓(xùn)練所得的參考樣本,來嘗試解決強(qiáng)健度的問題,但此方式無法處理不同的不利環(huán)境,因此其并不實(shí)用。改善強(qiáng)健度的其他方法包括有信號(hào)增強(qiáng)的預(yù)先處理,此通過在辨識(shí)處理前進(jìn)行噪音的抑制;例如是使用兩個(gè)信號(hào)源來進(jìn)行噪音消除。然而,此一方法所需要的是在不良信號(hào)中的噪聲成份以及基準(zhǔn)噪聲中必須具有一種高度的相關(guān)性,舉例來說,為了抑制汽車的引擎噪音,用于這兩個(gè)信號(hào)源的麥克風(fēng)無法分離超過5公分以上,因此無法防止語音本身被包括在基準(zhǔn)噪聲之中。另一種方法為使用例如是噪聲功率以及/或者信噪比SNR等噪聲特征的估算,并將其加至一個(gè)清晰的語音資料庫中,用以建構(gòu)出一種能夠使一噪聲頻譜成份對(duì)應(yīng)至噪聲抑制數(shù)值的函數(shù)(復(fù)合模型頻譜)。然而,該方法受限于一種對(duì)于噪聲估算的良好假設(shè)的需求(因而降低了處理不可預(yù)期的噪音環(huán)境的能力)以及高度的計(jì)算復(fù)雜性。
噪聲消除用麥克風(fēng)(隔膜兩側(cè)暴露于聲域之中)以及多感應(yīng)器配置能夠提升SNR,不過麥克風(fēng)以及感應(yīng)器必須被精確地加以定位,并且操作算法需要特定適合的訓(xùn)練,因此其一般性的使用受到了限制。
對(duì)于寬波段噪音環(huán)境而言,較低波段的語音區(qū)域?qū)⒏菀资艿皆胍舻挠绊憽=?jīng)由濾波器組分析器所進(jìn)行的噪音屏蔽針對(duì)濾波器的每一個(gè)波道輸出而將屏蔽噪音度選定作為在基準(zhǔn)信號(hào)中以及在測(cè)試信號(hào)中噪音度較大者。如果該波道輸出低于相應(yīng)的屏蔽級(jí),則該波道輸出接著會(huì)由屏蔽值所取代,因此避免了寄生失真的疊加,此因?yàn)檫@些被決定受到噪音不良影響的波道將在訓(xùn)練及測(cè)試的語音樣本中具有相同的頻譜值的緣故。然而,當(dāng)兩個(gè)將要進(jìn)行比較的樣本具有非常不同的噪聲級(jí),并且測(cè)試樣本具有較高的噪音度之時(shí),此方法將會(huì)造成具有較噪音為低的噪音度的所有基準(zhǔn)樣本噪聲具有同等小的差異,因而使得這樣的比較變得沒有意義。
不同于上述的單純機(jī)器語音辨識(shí),人類對(duì)于語音的知覺就強(qiáng)健得多,其能夠在不利的環(huán)境中達(dá)成相當(dāng)高的辨識(shí)正確率。舉例來說,在輸入SNR低于20分貝的情況下,傳統(tǒng)ASR系統(tǒng)的辨識(shí)正確率會(huì)大大的退化,然而人類卻能夠輕易地辨識(shí)甚至信號(hào)品質(zhì)低到相當(dāng)于0分貝SNR的語音。信號(hào)失真雖然擾人,但其卻很少能夠造成人類發(fā)生嚴(yán)重的語音辨識(shí)錯(cuò)誤(除非在信號(hào)本身的振幅過低的情況下),并且每一個(gè)說話人的發(fā)音特征(至少針對(duì)本國說話人而言)并不會(huì)導(dǎo)致重大知覺問題的發(fā)生。因此,我們嘗試發(fā)展一種類似于人類語音知覺的語音辨識(shí)系統(tǒng)。這種方法基本上能夠分成兩種類型第一種類型建立出一種具人類聽覺系統(tǒng)的機(jī)能的模型(例如耳膜以及耳蝸),但是這種系統(tǒng)會(huì)由于許多來自神經(jīng)系統(tǒng)以及聽覺單元間所產(chǎn)生的未知互動(dòng)的許多反饋路徑而將變得相當(dāng)復(fù)雜,而使得這種嘗試在理論上可行、然在實(shí)際運(yùn)作上卻受到相當(dāng)?shù)南拗?。第二種類型則利用人工神經(jīng)網(wǎng)絡(luò)(ANN)用以獲取語音特點(diǎn)、用以處理動(dòng)態(tài)與非線性語音信號(hào)、或者是用以與統(tǒng)計(jì)辨識(shí)器相組合。但是,人工神經(jīng)系統(tǒng)具有繁重計(jì)算需求的缺點(diǎn),使得具有相當(dāng)大詞匯的辨識(shí)系統(tǒng)變?yōu)椴磺袑?shí)際。
所有ASR系統(tǒng)都需要使用一個(gè)頻譜分析模型來使這個(gè)聲音信號(hào)參數(shù)化,如此才能夠?yàn)檎Z音辨識(shí)進(jìn)行與參考頻譜信號(hào)的比較。線性預(yù)測(cè)編碼(LPC)經(jīng)由一種所謂的全極模型化條件(all-pole modelingconstraints)而在語音幀上執(zhí)行頻譜分析。這也就是說,一種典型由Xn(ejω)所給定的頻譜表示方式被限制為σ/A(ejω)的形式,其中A(ejω)為一個(gè)z變換形式的pth次方多項(xiàng)式,由以下方程式所給定A(z)=1+a1z-1+a2z-2+a1z-1+……+apz-pLPC頻譜分析組的輸出為一系數(shù)向量(LPC參數(shù)),其是以參量方式指明全極模型在語音樣本幀的時(shí)間期間上能夠最佳配合信號(hào)頻譜的頻譜。傳統(tǒng)語音辨識(shí)系統(tǒng)典型經(jīng)由全極模型化條件來利用LPC。然而,在全極頻譜中的極點(diǎn)位置典型地受到在波谷部分中所出現(xiàn)噪音的影響,而此造成語音辨識(shí)的強(qiáng)健度受到嚴(yán)重地退化。
發(fā)明概述因此,一種能夠在不利環(huán)境中進(jìn)行正確辨識(shí)的語音辨識(shí)系統(tǒng)為我們所需求的。本發(fā)明為針對(duì)語音傅立葉頻譜所采用的三種知覺處理技術(shù)的應(yīng)用,用以在一知覺語音處理器中體現(xiàn)人類聽覺的知覺頻譜,其中該知覺語音處理器包括有一個(gè)利用一屏蔽勝者全取(winner-take-all)電路的噪音屏蔽罩、一個(gè)用于將客觀信號(hào)振幅轉(zhuǎn)換為主觀最小可聽的響度的振幅重正規(guī)化器(renormalizer)、以及一個(gè)用于將信號(hào)的物理赫茲頻率調(diào)整為知覺美(mel)標(biāo)度頻率的美-標(biāo)度頻率調(diào)整器。
附圖的簡單說明
圖1顯示出由一個(gè)1千赫茲、80分貝純音所產(chǎn)生屏蔽音于振幅與頻率的關(guān)系圖;圖2顯示出一個(gè)屏蔽音以及一個(gè)由該屏蔽音所產(chǎn)生的屏蔽罩于振幅與時(shí)間的關(guān)系圖3為最小可聽區(qū)(MAF)曲線及等音量線于振幅與頻率的關(guān)系圖;圖4為一個(gè)顯示出頻率標(biāo)度與美-標(biāo)度間關(guān)系的圖表;圖5為一個(gè)流程圖,其顯示本發(fā)明用于產(chǎn)生一知覺頻譜的知覺特征的次序及操作;圖6中(a)根據(jù)本發(fā)明中文母音‘i’的傅立葉頻譜,(b)顯示了屏蔽效應(yīng)的結(jié)果,(c)顯示了MAF操作的結(jié)果,而(d)則為美-標(biāo)度重新取樣的結(jié)果;圖7顯示出在本發(fā)明中實(shí)驗(yàn)測(cè)量辨識(shí)率與SNR關(guān)系的圖表;圖8說明了根據(jù)本發(fā)明的屏蔽勝者全取電路的實(shí)施例;圖9為一個(gè)說明由根據(jù)本發(fā)明的分段(piecewise)線性電阻器PWLn所產(chǎn)生電流與電壓差關(guān)系的圖表;圖10為根據(jù)本發(fā)明的屏蔽罩電流輸出的圖表;圖11為在本發(fā)明中通過描繪相應(yīng)于不同PWL的節(jié)點(diǎn)電壓來說明包絡(luò)提取的一個(gè)圖表;圖12為一個(gè)根據(jù)本發(fā)明實(shí)施例的單一屏蔽勝者全取(WTA)單元的表示圖。
具體實(shí)施例方式
自動(dòng)語音辨識(shí)系統(tǒng)針對(duì)用以進(jìn)行語音信號(hào)波成份振幅的離散傅立葉轉(zhuǎn)換計(jì)算來取樣諸點(diǎn)。由麥克風(fēng)所產(chǎn)生語音信號(hào)波形的參數(shù)化基于以下事實(shí)而定任何信號(hào)波能夠通過簡單正弦與余弦波的組合來加以表示;信號(hào)波的組合可以通過傅立葉逆變換所給定g(t)=∫-∞∝G(t)ei2πftdf]]>其中,傅立葉系數(shù)是通過以下傅立葉變換所給定G(t)=∫-∞∝g(t)ei2πftdf]]>其是給定信號(hào)波的成份(振幅)于頻率f(信號(hào)波于頻率空間中的頻譜)時(shí)的相對(duì)振幅。由于向量亦具有能夠由正弦及余弦函數(shù)所表示的成份,因此語音信號(hào)亦能夠通過頻譜向量來加以描述。對(duì)于實(shí)際的計(jì)算而言,在其他的方法之中,一種離散傅立葉變換是可以被使用G(nτN)=Σk=0N-1[τ·g(kτ)e-i2πknN]]]>其中,k是所采用之每一樣本數(shù)值的位置次序,τ是所讀取數(shù)值間的間隔,以及N是所讀取數(shù)值的總數(shù)。計(jì)算效率能夠通過利用快速傅立葉變換(FFT)而達(dá)成,其使用一連串基于三角函數(shù)成圓率(circularity)的捷徑來執(zhí)行離散傅立葉變換計(jì)算。
屏蔽效應(yīng)是某一聲音于其附近發(fā)生有更大聲音的情況下,而變得無法為人所聽見的現(xiàn)象。屏蔽效應(yīng)可以通過人類主觀反應(yīng)的實(shí)驗(yàn)來進(jìn)行測(cè)量。圖1顯示出由一個(gè)1千赫茲、80分貝純音100所產(chǎn)生屏蔽音的振幅與頻率間的關(guān)系。任何在實(shí)線101下方的信號(hào)將無法為人所聽見,并且如果頻率是接近的屏蔽音,則其將會(huì)被嚴(yán)重地抑制,而這種抑制現(xiàn)象在高頻率區(qū)會(huì)更加明顯。圖2說明了一個(gè)屏蔽音200以及由該屏蔽音所產(chǎn)生的屏蔽罩201的振幅與時(shí)間的關(guān)系。屏蔽罩201不僅發(fā)生在與屏蔽音同時(shí),其亦會(huì)向前與向后地延伸。發(fā)生在與屏蔽音同時(shí)(亦即于區(qū)域202處)、之前(亦即于區(qū)域204處)、以及之后(亦即于區(qū)域203處)的屏蔽效應(yīng)分別被稱之為同時(shí)屏蔽、前方屏蔽、以及后方屏蔽。這也就是說,屏蔽效應(yīng)不僅會(huì)發(fā)生在區(qū)域202處,其亦會(huì)發(fā)生在區(qū)域203以及區(qū)域204處。在熟知技術(shù)中為我們所知的是,‘響度’不僅取決信號(hào)振幅而定,其亦取決于頻率而定。圖3是最小可聽區(qū)(MAF)曲線300以及等音量線301、302、303、304、以及305的振幅與頻率的關(guān)系圖,其中,在MAF曲線300下方的聲音信號(hào)是過度衰弱而無法為人類所察覺。為了將客觀聲音信號(hào)振幅轉(zhuǎn)換為人類主觀響度,信號(hào)的一特定頻率成份的振幅必須根據(jù)MAF曲線來加以重正規(guī)化L(in dB)=M(in dB)-MAF其中,L與M分別為聲音信號(hào)的頻率成份的響度及振幅,并且MAF是MAF于該頻率的數(shù)值。在本發(fā)明的一個(gè)實(shí)施例之中,一個(gè)給定頻率成份的振幅可以依據(jù)所有的等音量線301、302、303、304、以及305來進(jìn)行更進(jìn)一步的重正規(guī)化。為了描述人類的主觀音感,頻率標(biāo)度被調(diào)整為一種被稱之為美-標(biāo)度的知覺頻率標(biāo)度。圖4是一個(gè)顯示出赫茲標(biāo)度與美-標(biāo)度間的關(guān)系的圖表,其中美-標(biāo)度是通過以下方程式所給定的mel=2595×Log(1+f/700)其中,f是信號(hào)頻率。
在上述本發(fā)明較佳實(shí)施例中,用以產(chǎn)生一知覺頻譜的知覺特征的次序及操作被顯示在圖5的流程圖中。步驟501是將被輸入至步驟502中的快速傅立葉變換(FFT),步驟502根據(jù)在語音信號(hào)的先前與目前幀中的最后屏蔽罩,而將受到附近較大聲音所屏蔽的聲音信號(hào)的所有頻率成份移除。步驟503根據(jù)MAF曲線而將聲音信號(hào)的每一頻率成份的振幅進(jìn)行重正規(guī)化,而步驟504是通過重新取樣而將頻率成份轉(zhuǎn)換為美-標(biāo)度。這種步驟次序是針對(duì)計(jì)算效率所安排的,然而,對(duì)于聽覺傳導(dǎo)路徑而言并非必須與此次序相同。熟習(xí)此技述的人能夠了解到的是,步驟501、502、503、以及504的任何次序均落于本發(fā)明的考慮之中。步驟501、502、503、以及504的結(jié)果被顯示在圖6之中,其中(a)是中文母音‘i’的傅立葉頻譜,(b)是步驟502屏蔽效應(yīng)的結(jié)果,(c)是步驟503進(jìn)行MAF處理的結(jié)果,而(d)是美-標(biāo)度重新取樣的結(jié)果。在圖6中(b)所顯示的是,本發(fā)明的屏蔽效應(yīng)消除了大部分介于400赫茲與2千赫茲間的頻率成份,而大大地降低了必須進(jìn)行處理的信息量并移除了重大的背景噪聲。圖6中(c)所顯示的是低頻率成份以及高頻率成份被相當(dāng)?shù)販p弱,而圖6中(d)所顯示的則是根據(jù)本發(fā)明較佳實(shí)施例的示范性母音i的知覺頻譜。在另一個(gè)實(shí)施例之中,低頻率成份(其包含大部分的母音信息)與其他頻率相較之下被更精細(xì)地進(jìn)行取樣。最終知覺頻譜僅保存了一個(gè)頻譜包絡(luò),而其能夠獨(dú)自表達(dá)相關(guān)于發(fā)音部份的形狀的重大信息。由于音調(diào)(pitch)信息對(duì)于母音辨識(shí)并非為必要的,因此其亦被有利地移除。步驟502(屏蔽效應(yīng))與傳統(tǒng)式全極頻譜模型有明顯的不同。全極模型會(huì)在頻譜中產(chǎn)生兀凹形平滑化波谷,反之本發(fā)明卻產(chǎn)生急轉(zhuǎn)陡峻的邊緣。當(dāng)頻譜受到噪聲的污染之時(shí),在全極頻譜中的極點(diǎn)位置會(huì)典型地受到在波谷區(qū)段中所出現(xiàn)噪聲的影響。在本發(fā)明之中,大部分的波谷噪聲被屏蔽罩所移除,因此能夠達(dá)成較清晰的信號(hào)以及增大的強(qiáng)健度。
圖7是實(shí)驗(yàn)測(cè)量辨識(shí)率相關(guān)于SNR的圖表。知覺頻譜曲線(PS)在與FFT頻譜包絡(luò)曲線(SE)相較之下會(huì)造成較低的SNR以及較高的辨識(shí)率。屏蔽效應(yīng)(MASK)以及MAF重正規(guī)化化與MASK本身在與SE相較之下亦能夠顯著地增強(qiáng)辨識(shí)率并降低噪聲。
屏蔽效應(yīng)就是指在較微弱聲音的附近存在有較大聲的聲音之時(shí)而無法聽見該較微弱聲音的現(xiàn)象。我們已知道聽覺神經(jīng)元被安排按其各自的諧振頻率(按音調(diào)主題組織(tonotopic organization))的順序,如此,抑制附近頻率成份的知覺相應(yīng)于側(cè)向聽覺神經(jīng)元的抑制。神經(jīng)元的活動(dòng)取決于神經(jīng)元的輸入,以及來自附近神經(jīng)元的抑制與刺激。帶有較強(qiáng)輸出的神經(jīng)元將會(huì)經(jīng)由突觸連接而限制側(cè)向神經(jīng)元。假設(shè)一個(gè)神經(jīng)元具有最強(qiáng)的輸入刺激,神經(jīng)元i將接著以最大程度來限制或刺激其附近的神經(jīng)元。因?yàn)樵趨^(qū)域中的其他神經(jīng)元對(duì)于神經(jīng)元i而言是非競(jìng)爭性(無聲)的,因此僅有神經(jīng)元i會(huì)產(chǎn)生輸出。此殘留神經(jīng)元i是在所謂勝者全取(WTA)神經(jīng)元網(wǎng)絡(luò)中的勝者,其在對(duì)于離開較遠(yuǎn)神經(jīng)元的互動(dòng)變得較弱之時(shí)僅會(huì)合理地延伸至局部區(qū)域。WTA網(wǎng)絡(luò)的一種總體模型是一個(gè)具有n個(gè)神經(jīng)元的電子電路,而每一個(gè)神經(jīng)元通過兩個(gè)nMOS晶體管來代表,而其在一節(jié)點(diǎn)處被連接在一起。當(dāng)一輸入脈沖使用一針對(duì)以并聯(lián)方式相連的晶體管的電流來加以模擬之時(shí),節(jié)點(diǎn)的電壓取決于具有最高電流輸入的晶體管(神經(jīng)元)。在平衡的情況下,一個(gè)偏流會(huì)流經(jīng)勝者神經(jīng)元而有效地抑制其他所有神經(jīng)元的輸出電流。通過使晶體管與串聯(lián)的電阻器分離,并且使每一個(gè)晶體管偏流(bias),電流亦可以被局部化。
圖8說明了根據(jù)本發(fā)明的屏蔽勝者全取電路800的一個(gè)實(shí)施例。電流源Ik將電流輸入至nMOS晶體管對(duì)T1k,T2k之中,而產(chǎn)生了晶體管電壓Vk以及節(jié)點(diǎn)電壓Vck。分段線性電阻器PWLn以串聯(lián)方式被連接在節(jié)點(diǎn)801,802,803之間,而這些節(jié)點(diǎn)被連接至二極管連接式nMOS晶體管T3k。分段線性電阻器PWLn所產(chǎn)生電流與電壓差的關(guān)系顯示在圖9中,并且分段線性電阻器PWLn會(huì)產(chǎn)生在圖1中所觀察到屏蔽效應(yīng)的不對(duì)稱抑制特征。所進(jìn)行的實(shí)驗(yàn)利用一256個(gè)單元(神經(jīng)元/晶體管對(duì))的SPICE模擬。圖10是根據(jù)本發(fā)明的屏蔽罩的電流輸出圖表,其是通過一個(gè)純音輸入所產(chǎn)生的,其中,神經(jīng)元30的輸入是700nA,而其他神經(jīng)元的輸入是100nA。在圖10中能夠觀察到屏蔽效應(yīng)的不對(duì)稱情況。輸入至本發(fā)明中的母音頻譜會(huì)產(chǎn)生優(yōu)勝頻譜成份(最高輸出電流),而此不僅會(huì)抑制附近的頻譜成份,同樣亦會(huì)吸收附近的偏流,從而提升了勝者自身的輸出電流,并且提升了共振峰提取的有效性。共振峰是定義特征(在聲音頻譜中的尖峰),并因此發(fā)音次數(shù)越多則會(huì)達(dá)成更好的語音辨識(shí)。此外,諸成份被明確地量化,而每一個(gè)成份是基本頻率的一個(gè)諧波。辨別不同音素的信息呈現(xiàn)在語音頻譜的包絡(luò)之中。本發(fā)明的屏蔽用WTA系統(tǒng)更進(jìn)一步地將頻譜包絡(luò)從所輸入的語音中分離出來。在圖8中的節(jié)點(diǎn)電壓Vck顯示出輸入電流Ik的一種平滑化頻譜包絡(luò)。如果所討論的神經(jīng)元相應(yīng)于一個(gè)頻譜的波谷,則該神經(jīng)元的電流輸出將會(huì)被其附近的尖峰所抑制,但是節(jié)點(diǎn)電壓亦將會(huì)提升(如同在上文中已然敘述的),于是得以實(shí)現(xiàn)一個(gè)相應(yīng)于輸入頻譜的包絡(luò)的平順節(jié)點(diǎn)電壓。圖11顯示出本發(fā)明所產(chǎn)生的包絡(luò)提取。實(shí)曲線是相應(yīng)于不同PWL電阻(50k-0.5k,100k-1k,and 500k-5k)的節(jié)點(diǎn)電壓,而點(diǎn)曲線則是不具有電阻之處。
圖12是根據(jù)本發(fā)明實(shí)施例的一個(gè)單一屏蔽用WTA單元,其包括有三個(gè)nMOS晶體管(M1、M2、以及M3)、一個(gè)PWL R電阻器、一個(gè)電壓緩沖器、MOS電容器M5、以及兩個(gè)電流反射鏡MI1與MI2。在編程階段,一個(gè)輸入電壓被儲(chǔ)存在MOS電容器M5處;M4將電壓轉(zhuǎn)換為用經(jīng)由電流反射鏡MI1所輸入的電流。在操作中,電壓輸出通過一個(gè)單位增益(unity-gain)緩沖器來進(jìn)行緩沖,并接著被連接至一個(gè)輸出總線。輸出電流被電流反射鏡MI2所復(fù)制,并且被傳送至一個(gè)電流輸出總線。輸出電流接著通過一個(gè)線性接地式電阻器PWL R而被換為電壓。PWL R能夠抵制對(duì)于電流方向改變(參見圖9)以及知覺屏蔽曲線(參見圖1)的敏感性,并且左側(cè)電阻比上右側(cè)電阻的比率可以大到100。這兩個(gè)nMnos晶體管M1與M2用作為對(duì)于兩個(gè)電流流動(dòng)方向的被動(dòng)電阻,其帶有一個(gè)在M1與M2之間隨著電壓降(電阻會(huì)通過閘電壓所調(diào)整)的標(biāo)示來進(jìn)行切換的比較器COMP。本發(fā)明的此一實(shí)施例經(jīng)由在UMCTM0.5微米雙極雙金屬CMOS程序中的保持電路(用于穩(wěn)定性、信號(hào)增益、以及防止漏泄)而被實(shí)現(xiàn)。電壓輸出會(huì)產(chǎn)生頻譜包絡(luò),而電流輸出會(huì)產(chǎn)生頻譜的共振峰。利用本發(fā)明的屏蔽用WTA電路,母音ai的共振峰能夠在頻譜圖中清楚地看見,甚至是在輸入信號(hào)中存在有噪聲的情況下亦然。
在本發(fā)明屏蔽用WTA網(wǎng)絡(luò)的較佳實(shí)施例之中,一種類比式平行處理系統(tǒng)被有利地使用來與ASR系統(tǒng)的其他部件相整合。舉例來說,一種帶通濾波器組能夠被連接至其上游處,用以提供輸入至屏蔽用WTA網(wǎng)絡(luò)之中。
盡管以上內(nèi)容是本發(fā)明特定實(shí)施例的完整描述,但不同的變化樣式、替代結(jié)構(gòu)、以及均等物均能夠被加以使用。舉例來說,雖然在此所顯示的某些實(shí)施例是針對(duì)中文所建構(gòu)的,但在本發(fā)明中所述的觀念確能夠適用于任何的語言。此外,無論是類比或是數(shù)位、數(shù)值或硬體處理器的任何施現(xiàn)技術(shù)均能夠被有利地利用。因此,本發(fā)明于隨附申請(qǐng)專利范圍中所界定的范圍并未受限于以上描述與舉例說明的內(nèi)容。
權(quán)利要求
1.一種知覺語音處理器,包括一個(gè)用于模擬噪聲的屏蔽效應(yīng)的噪音屏蔽罩,該噪音屏蔽罩包括屏蔽勝者全取電路,其包含有多對(duì)晶體管,每一對(duì)晶體管被連接至一個(gè)電流源,并且以并聯(lián)方式被連接至總線;多個(gè)分段線性電阻器,每一個(gè)分段線性電阻器對(duì)應(yīng)于多對(duì)晶體管中的一對(duì)晶體管,并且以串聯(lián)方式被連接至該總線;以及多個(gè)二極管連接式晶體管,每一個(gè)二極管連接式晶體管被連接至該多對(duì)晶體管中相應(yīng)的一對(duì)晶體管,并且被連接至該總線。
2.根據(jù)權(quán)利要求第1項(xiàng)所述的知覺語音處理器,其中,該多個(gè)分段線性電阻器會(huì)響應(yīng)于電壓降的符號(hào)的變化而改變電阻。
3.根據(jù)權(quán)利要求第1項(xiàng)所述的知覺語音處理器,其中,該多個(gè)分段線性電阻器具有范圍介于50-100且從左至右的電流阻抗。
4.一種知覺語音處理器,包括一個(gè)用于在語音頻域上將客觀信號(hào)振幅轉(zhuǎn)換為主觀響度最小可聽場(chǎng)的振幅重正規(guī)化器。
5.一種知覺語音處理器,包括有一個(gè)用于將信號(hào)的物理赫茲頻率調(diào)整為同一信號(hào)的知覺美-標(biāo)度頻率的美-標(biāo)度頻率調(diào)整器。
6.一種知覺語音處理器,包括有噪音屏蔽罩,用于模擬噪音聲的效應(yīng);振幅重正規(guī)化器,被連接至該噪音屏蔽罩,用于在語音頻率域上將客觀信號(hào)振幅轉(zhuǎn)換為主觀響度最小可聽場(chǎng);以及美-標(biāo)度頻率轉(zhuǎn)換器,被連接至該振幅重正規(guī)化器,用于將一信號(hào)的物理赫茲頻率調(diào)整為知覺美-標(biāo)度頻率,從而產(chǎn)生出一個(gè)知覺頻譜。
7.一種用于辨識(shí)傅立葉頻譜語音輸入信號(hào)的方法,包括有以下步驟(a)刪除被較大聲附近成份所屏蔽的信號(hào)的頻率成份;(b)根據(jù)最小幅度區(qū)(MAF)曲線來重正規(guī)化信號(hào)中每個(gè)頻率成份的振幅;以及(c)通過重新取樣來將該信號(hào)的每個(gè)頻率成份轉(zhuǎn)換為美-標(biāo)度。
8.根據(jù)權(quán)利要求第7項(xiàng)所述的方法,其中,步驟(a)還包括有以下步驟經(jīng)由電子方式來模擬屏蔽罩,以決定將被刪除的受屏蔽頻率。
9.根據(jù)權(quán)利要求第8項(xiàng)所述的方法,其中,該電子模擬利用一種具有多個(gè)分段線性電阻器的屏蔽式勝者全取電路來模型化不對(duì)稱屏蔽。
10.根據(jù)權(quán)利要求第7項(xiàng)所述的方法,其中,步驟(b)尚包括有以下步驟根據(jù)所有等音量線來重正規(guī)化每個(gè)頻率的振幅。
11.根據(jù)權(quán)利要求第7項(xiàng)所述的方法,其中,步驟(c)尚包括有利用以下方程式來計(jì)算美-標(biāo)度的步驟美=2595×log(1+f/700)其中f為頻率。
全文摘要
本發(fā)明是針對(duì)語音傅立葉頻譜所應(yīng)用的知覺處理技術(shù)的系統(tǒng)及方法,用以在一知覺語音處理器中體現(xiàn)人類聽覺的知覺頻譜,其中該知覺語音處理處理器包括有一個(gè)利用一屏蔽勝者全取電路的噪音屏蔽罩、一個(gè)用于將客觀信號(hào)振幅轉(zhuǎn)換為主觀最小可聽的響度的振幅重正規(guī)化器、以及一個(gè)用于將信號(hào)的物理赫茲頻率調(diào)整為知覺美-標(biāo)度頻率的美-標(biāo)度頻率調(diào)整器。
文檔編號(hào)G10L15/20GK1400585SQ01124049
公開日2003年3月5日 申請(qǐng)日期2001年8月8日 優(yōu)先權(quán)日2001年8月8日
發(fā)明者卜令楷, 闕志達(dá) 申請(qǐng)人:韋爾博泰克公司