專利名稱:用于語(yǔ)音識(shí)別的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及語(yǔ)音識(shí)別裝置,具體說(shuō)來(lái)涉及用于可以識(shí)別與講話人無(wú)關(guān)的孤立語(yǔ)詞的語(yǔ)音識(shí)別系統(tǒng)中的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法。
多年來(lái)科學(xué)家一直試圖找到一種可以簡(jiǎn)化人機(jī)界面的辦法。諸如鍵盤、鼠標(biāo)、觸摸屏及筆這些輸入設(shè)備是用來(lái)實(shí)現(xiàn)人/機(jī)界面最為常用的工具。但是人機(jī)間更為簡(jiǎn)單和自然的界面可能是人的語(yǔ)音。一種能夠自動(dòng)識(shí)別語(yǔ)音的裝置可以提供這樣一種界面。
自動(dòng)語(yǔ)音識(shí)別裝置的潛在應(yīng)用包括利用話音命令的數(shù)據(jù)庫(kù)查詢技術(shù)、在制造過程中利用話音輸入進(jìn)行質(zhì)量控制、使駕駛員在撥號(hào)時(shí)可集中精神于路面情況的話音撥號(hào)式蜂窩電話以及傷殘人使用的話音操縱的假肢裝置。
令人遺憾的是自動(dòng)語(yǔ)音識(shí)別不是一項(xiàng)可以輕易完成的課題。一個(gè)原因是各個(gè)人的語(yǔ)音之間的變化很大。比如同一個(gè)語(yǔ)詞由幾個(gè)人講出時(shí)其聲音會(huì)由于口音、語(yǔ)速、姓別或年齡的差異而相差甚遠(yuǎn)。除了講話人的變化,協(xié)同發(fā)音效應(yīng)、講話的模式(喊叫/低語(yǔ))及背景噪聲都會(huì)給語(yǔ)音識(shí)別裝置造成巨大的問題。
自60年代未到現(xiàn)在,在自動(dòng)語(yǔ)音識(shí)別方面已引進(jìn)了各種各樣的方法。一些方法立足于相應(yīng)的試探策略的擴(kuò)展知識(shí),另一些方法則基于語(yǔ)音數(shù)據(jù)庫(kù)和訓(xùn)練方法。后面這一類方法包括動(dòng)態(tài)時(shí)間偏差法(DTW)和隱藏馬爾可夫模型法(HMM)。對(duì)這兩種方法,以及時(shí)間延遲神經(jīng)網(wǎng)絡(luò)(TDNN),將在下面討論。
動(dòng)態(tài)時(shí)間偏差法是一種利用優(yōu)化原理減小一個(gè)未知的發(fā)音語(yǔ)詞與一個(gè)所存儲(chǔ)的已知模板語(yǔ)詞之間的誤差的技術(shù)。已報(bào)告的數(shù)據(jù)表明這項(xiàng)DTW技術(shù)很有效并能進(jìn)行良好的識(shí)別。然而,DTW技術(shù)的計(jì)算強(qiáng)度很大。所以要把這種DTW技術(shù)應(yīng)用于現(xiàn)實(shí)世界中是不實(shí)際的。
隱藏馬爾可夫模型法不是直接將一個(gè)未知的發(fā)音語(yǔ)詞與一已知語(yǔ)詞的模板進(jìn)行比較,而是利用各已知語(yǔ)詞的隨機(jī)模型并對(duì)各模型產(chǎn)生該未知語(yǔ)詞的概率進(jìn)行比較。當(dāng)一個(gè)未知語(yǔ)詞講出時(shí),HMM技術(shù)將檢查該語(yǔ)詞的序列(或狀態(tài))并找出能提供最佳匹配的模型。HMM技術(shù)在很多商業(yè)應(yīng)用中運(yùn)用順利;但是,此項(xiàng)技術(shù)有很多缺點(diǎn)。這些缺點(diǎn)包括不能區(qū)分聲音類似的語(yǔ)詞、對(duì)噪聲敏感和計(jì)算強(qiáng)度大。
最近,神經(jīng)網(wǎng)絡(luò)被用來(lái)解決一些高度非結(jié)構(gòu)性并且不然就無(wú)法解決的問題,如語(yǔ)音識(shí)別。時(shí)間延遲神經(jīng)網(wǎng)絡(luò)是一種采用有限的神經(jīng)元連系處理語(yǔ)言時(shí)間效應(yīng)的神經(jīng)網(wǎng)絡(luò)。就有限的語(yǔ)詞識(shí)別而言,TDNN的表現(xiàn)略優(yōu)于HMM方法。但TDNN卻受困于某些嚴(yán)重的缺點(diǎn)。
首先,TDNN的訓(xùn)練時(shí)間很長(zhǎng),大約為數(shù)星期之久。其次,TDNN的訓(xùn)練算法經(jīng)常收斂為局部極小,非最優(yōu)解。最優(yōu)解應(yīng)是全局極小。
總之,已知的現(xiàn)有自動(dòng)語(yǔ)音識(shí)別方法的缺點(diǎn)(如算法所需計(jì)算工作量不實(shí)際,對(duì)講話人的改變和背景噪聲的容許度有限,訓(xùn)練時(shí)間過長(zhǎng)等等)嚴(yán)重地限制了語(yǔ)音識(shí)別裝置在很多有可能應(yīng)用的領(lǐng)域中的接納和推廣。因此急需一種高度精確、對(duì)背景噪聲免疫、無(wú)需反復(fù)訓(xùn)練或復(fù)雜計(jì)算、可產(chǎn)生全局極小并且對(duì)講話人的差異不敏感的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)。
因此,本發(fā)明的一個(gè)優(yōu)點(diǎn)就是可提供一種用于對(duì)講話人的差異及背景噪聲不敏感的語(yǔ)音識(shí)別系統(tǒng)中的神經(jīng)網(wǎng)絡(luò)訓(xùn)練法。
本發(fā)明的另一個(gè)優(yōu)點(diǎn)則是可提供一種訓(xùn)練時(shí)間不需要重復(fù)迭代的語(yǔ)音識(shí)別裝置的訓(xùn)練法。
本發(fā)明的再一個(gè)優(yōu)點(diǎn)是可提供一種對(duì)每一給定的訓(xùn)練矢量集可生成全局極小的語(yǔ)音識(shí)別裝置的訓(xùn)練法。
根據(jù)本發(fā)明優(yōu)選實(shí)施例中通過對(duì)用于語(yǔ)音識(shí)別系統(tǒng)中的多個(gè)神經(jīng)網(wǎng)絡(luò)(每一個(gè)神經(jīng)網(wǎng)絡(luò)又由多個(gè)神經(jīng)元構(gòu)成)提供一種訓(xùn)練法取得了上述以及其他優(yōu)點(diǎn);該方法產(chǎn)生了多個(gè)訓(xùn)練實(shí)例,每個(gè)訓(xùn)練實(shí)例包括有一個(gè)輸入部分和一個(gè)輸出部分,該方法由下列步驟構(gòu)成(a)接受一個(gè)講出的例詞;(b)對(duì)該講出的語(yǔ)詞進(jìn)行模數(shù)轉(zhuǎn)換,這種轉(zhuǎn)換會(huì)產(chǎn)生一個(gè)數(shù)字化語(yǔ)詞;(c)對(duì)該數(shù)字語(yǔ)詞進(jìn)行倒頻譜分析(cepstral analysis),分析結(jié)果產(chǎn)生一個(gè)數(shù)據(jù)幀序列;(d)由該數(shù)據(jù)幀序列生成多個(gè)數(shù)據(jù)塊;(e)從多個(gè)數(shù)據(jù)塊中選擇一個(gè)并使多個(gè)訓(xùn)練實(shí)例中的一個(gè)的輸入部分等于所選擇的數(shù)據(jù)塊;(f)從多個(gè)神經(jīng)網(wǎng)絡(luò)中選擇一個(gè)并確定所選擇的神經(jīng)網(wǎng)絡(luò)是否可識(shí)別所選擇的數(shù)據(jù)塊;如果可以,則將該一訓(xùn)練實(shí)例的輸出部分設(shè)置為1,如果不可以,則將該一訓(xùn)練實(shí)例的輸出部分設(shè)置為0;(g)將該一訓(xùn)練實(shí)例存儲(chǔ);(h)確定多個(gè)數(shù)據(jù)塊中是否有另一個(gè)數(shù)據(jù)塊;如果有,返回到步驟(e);如果沒有,結(jié)束本方法。
在所附的權(quán)利要求書中對(duì)本發(fā)明已有詳細(xì)敘述。但是,結(jié)合附圖并參考下面的詳細(xì)介紹本發(fā)明的其他一些特點(diǎn)將更加清楚并可對(duì)之有一個(gè)更好的了解,其中
圖1是一個(gè)語(yǔ)音識(shí)別系統(tǒng)的一個(gè)上下文框圖;圖2是利用本發(fā)明的一個(gè)語(yǔ)音識(shí)別系統(tǒng)的概念圖;圖3是圖2所示的語(yǔ)音識(shí)別系統(tǒng)的操作法的流程圖;圖4所示為本發(fā)明的分而治之(divide-and-conquer)算法的數(shù)據(jù)輸入和輸出。
圖5是本發(fā)明的分而治之算法的執(zhí)行法的流程圖。
圖6是根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音識(shí)別的方法的流程圖。
圖1是一個(gè)語(yǔ)音識(shí)別系統(tǒng)的一個(gè)上下文框圖。該系統(tǒng)的組成包括一支用于接受語(yǔ)音形式的音頻輸入并將聲音轉(zhuǎn)換為電能的話筒1或等效裝置,接受由話筒1送出的電信號(hào)并完成各種任務(wù),如波形取樣、模數(shù)(A/D)轉(zhuǎn)換、倒頻譜分析等等的預(yù)處理電路3,以及一臺(tái)執(zhí)行語(yǔ)音識(shí)別程序并相應(yīng)地產(chǎn)生一個(gè)確認(rèn)所識(shí)別的語(yǔ)音的輸出的計(jì)算機(jī)5。
當(dāng)使用者對(duì)話筒1講話時(shí)此系統(tǒng)開始工作。在一優(yōu)選實(shí)施例中,由圖1所描述的系統(tǒng)用于孤立語(yǔ)詞識(shí)別。當(dāng)對(duì)著話筒講話的人在各語(yǔ)詞之間做出一個(gè)清晰的停頓時(shí)就發(fā)生孤立語(yǔ)詞識(shí)別。
當(dāng)講話者講出一個(gè)語(yǔ)詞時(shí),話筒1產(chǎn)生一個(gè)代表該語(yǔ)詞的聲音波形的信號(hào)。之后此信號(hào)被送到預(yù)處理電路3由模數(shù)轉(zhuǎn)換器(未示出)數(shù)字化。對(duì)這一數(shù)字化信號(hào)然后進(jìn)行倒頻譜分析(一種特征抽取方法)處理,這種分析處理也是由預(yù)處理電路3完成。計(jì)算機(jī)5接受倒頻譜分析的結(jié)果并利用該結(jié)果來(lái)確定講出的語(yǔ)詞的身份。
下面是對(duì)預(yù)處理電路3和計(jì)算機(jī)5的更詳細(xì)的介紹。為完成其所承擔(dān)的任務(wù)預(yù)處理電路3可能包括一組硬件和軟件。例如,A/D轉(zhuǎn)換可由一專用集成電路完成,而倒頻譜分析可由一套由微處理器執(zhí)行的軟件來(lái)完成。
預(yù)處理電路3包括適于進(jìn)行A/D轉(zhuǎn)換的手段。話筒1發(fā)出的信號(hào)通常是模擬信號(hào)。由一A/D轉(zhuǎn)換器(未示出)對(duì)話筒1發(fā)出的信號(hào)每秒鐘進(jìn)行數(shù) 千次取樣(例如在一優(yōu)選實(shí)施例中為每秒8000~14,000次)。然后將每個(gè)取樣轉(zhuǎn)換為一個(gè)數(shù)字字,各字的長(zhǎng)度為12至32比特。數(shù)字信號(hào)一般包括一個(gè)或多個(gè)這種數(shù)字字。本領(lǐng)域的一般技術(shù)人員都可以理解A/D轉(zhuǎn)換器的取樣率和字長(zhǎng)可以變化并且上面所給出的數(shù)字并不對(duì)本發(fā)明所包括的A/D轉(zhuǎn)換器的取樣率及字長(zhǎng)構(gòu)成任何限制。
對(duì)數(shù)字信號(hào)進(jìn)行的倒頻譜分析(或稱為特征抽取)的結(jié)果產(chǎn)生一個(gè)表征該講出的語(yǔ)詞的相關(guān)特征的一個(gè)信號(hào)表示。這可以看作是一個(gè)可以保持語(yǔ)音重要特征并從數(shù)字信號(hào)的非相關(guān)特征中去掉不需要的干擾的數(shù)據(jù)簡(jiǎn)化步驟,結(jié)果可使計(jì)算機(jī)5的決策過程簡(jiǎn)單。
倒頻譜分析過程如下。首先,將構(gòu)成數(shù)字信號(hào)數(shù)字化取樣劃分成一個(gè)集序列。每個(gè)集中包含在一個(gè)固定長(zhǎng)度時(shí)間段中所得到的取樣。比如在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中此時(shí)間段為15毫秒。如果一個(gè)講出的語(yǔ)詞的長(zhǎng)度,比如,是150毫秒,則電路3將會(huì)產(chǎn)生一個(gè)包括10個(gè)數(shù)字取樣集的序列。
其次,對(duì)每一個(gè)取樣集應(yīng)用一個(gè)P階(一般P=12~14)線性預(yù)測(cè)分析以生成P個(gè)預(yù)測(cè)系數(shù)。然后將預(yù)測(cè)系統(tǒng)轉(zhuǎn)換為倒頻譜系數(shù),為此使用如下遞歸公式c(n)=a(n)+Σk=1n-1(1-k/n)a(k)c(n-k)---(1)]]>其中c(n)表示倒頻譜系數(shù)矢量,a(n)表示預(yù)測(cè)系數(shù),1≤n≤P,P等于倒頻譜系數(shù)的數(shù)目,n表示一個(gè)整數(shù)指標(biāo),k表示整數(shù)指標(biāo),a(k)表示第k個(gè)預(yù)測(cè)系數(shù),而c(n-k)第(n-k)個(gè)倒頻譜系數(shù)。
倒頻譜系數(shù)矢量通常由如下形式的正弦窗加權(quán)α(n)=1+(L/2)sin(πn/L)(2)其中1≤n≤p,而L為一給出加權(quán)倒頻譜矢量C(n)的整數(shù)常數(shù),其中c(n)=c(n)α(n) (3)這種加權(quán)通常稱作倒頻譜升降(1iftering)。這一升降過程的效用是使語(yǔ)音取樣中頻譜的譜峰平滑。另外還發(fā)現(xiàn)倒頻譜升降可抑制高低倒頻譜系數(shù)間現(xiàn)存的差異,從而可以大大改善語(yǔ)音識(shí)別系統(tǒng)的性能。
于是倒頻譜分析的結(jié)果就產(chǎn)生一個(gè)平滑對(duì)數(shù)頻譜的序列,其中每個(gè)頻譜對(duì)應(yīng)于講出的語(yǔ)詞那一段時(shí)間中的一個(gè)離散時(shí)間段。
這樣一來(lái)語(yǔ)音信號(hào)中的重要特征就保存在頻譜中。對(duì)于每一個(gè)頻譜,預(yù)處理電路3都生成一個(gè)由頻譜中數(shù)據(jù)點(diǎn)構(gòu)成的數(shù)據(jù)幀。對(duì)每個(gè)頻譜生成一個(gè)數(shù)據(jù)幀的,結(jié)果是形成一個(gè)時(shí)間序的數(shù)據(jù)幀序列、這一序列送往計(jì)算機(jī)5。
在一優(yōu)選實(shí)施例中,每個(gè)數(shù)據(jù)幀包含12個(gè)數(shù)據(jù)點(diǎn),其中每個(gè)數(shù)據(jù)點(diǎn)代表倒頻譜平滑譜在某個(gè)具體頻率處的值。數(shù)據(jù)點(diǎn)是32比特的數(shù)字字。本領(lǐng)域的專業(yè)人員可以理解本發(fā)明并未對(duì)每幀數(shù)據(jù)點(diǎn)的數(shù)目或數(shù)據(jù)點(diǎn)的位長(zhǎng)進(jìn)行限制;每一數(shù)據(jù)幀中所包含的數(shù)據(jù)點(diǎn)數(shù)可以是12或任何其他合適的數(shù)值,而數(shù)據(jù)點(diǎn)的位長(zhǎng)可以是32比特,16比特或任何其他數(shù)值。
計(jì)算機(jī)5的主要功用是確定所講出的語(yǔ)詞的身份。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,計(jì)算機(jī)5可包含一個(gè)用于處理數(shù)據(jù)幀序列的分段程序、用于計(jì)算多項(xiàng)式擴(kuò)展的多個(gè)神經(jīng)網(wǎng)絡(luò)以及一個(gè)利用神經(jīng)網(wǎng)絡(luò)的輸出將講出的語(yǔ)詞分類為已知語(yǔ)詞的選擇器。計(jì)算機(jī)5的工作的更為詳細(xì)的情況見后。
圖2是利用本發(fā)明的一個(gè)語(yǔ)音識(shí)別系統(tǒng)的概念圖。
在一個(gè)優(yōu)選實(shí)施例中,語(yǔ)音識(shí)別系統(tǒng)可以識(shí)別講出的孤立語(yǔ)詞。話筒1接受講話人的語(yǔ)音輸入并將之轉(zhuǎn)換為電信號(hào)。這些電信號(hào)被送入預(yù)處理電路3。
預(yù)處理電路3完成上面就圖1所描述的功能。電路3完成A/D轉(zhuǎn)換和倒頻譜分析,并且電路3可能包括一組硬件和軟件以完成其所承擔(dān)的任務(wù)。預(yù)處理電路3的輸出形式為代表所講的語(yǔ)詞的數(shù)據(jù)幀序列。每個(gè)數(shù)據(jù)幀包括一個(gè)數(shù)據(jù)點(diǎn)集(32比特字),與講出該語(yǔ)詞的時(shí)間的一個(gè)離散時(shí)間段相對(duì)應(yīng)。電路3的輸出傳送到計(jì)算機(jī)5。
計(jì)算機(jī)5可以是通用數(shù)字計(jì)算機(jī)或?qū)S糜?jì)算機(jī)。計(jì)算機(jī)5包括適合執(zhí)行分而治之算法11的硬件和/或軟件。計(jì)算機(jī)5還包括由第1神經(jīng)網(wǎng)絡(luò)12、第2神經(jīng)網(wǎng)絡(luò)13以及第n神經(jīng)網(wǎng)絡(luò)14代表的多個(gè)神經(jīng)網(wǎng)絡(luò)。各種神經(jīng)網(wǎng)絡(luò)12、13和14的輸出送入相應(yīng)的各累加器15、16和17。累加器15~17的輸出送入選擇器18,選擇器18的輸出代表所識(shí)別的語(yǔ)音語(yǔ)詞。
分而治之算法11接受由預(yù)處理電路3發(fā)出的數(shù)據(jù)幀序列并由之而生成多個(gè)數(shù)據(jù)塊。大體上算法11將數(shù)據(jù)幀序列劃分成數(shù)據(jù)塊集,每個(gè)數(shù)據(jù)塊則包括來(lái)自輸入序列的數(shù)據(jù)幀的一個(gè)子集。分而治之算法11的詳細(xì)情況在后面的標(biāo)題為“分而治之算法”一節(jié)中給出。在一個(gè)優(yōu)選實(shí)施例中,4個(gè)數(shù)據(jù)塊中的每一個(gè)都包括來(lái)自輸入序列的5個(gè)數(shù)據(jù)幀。
第1個(gè)數(shù)據(jù)塊包含數(shù)據(jù)幀序列中的第1個(gè)數(shù)據(jù)幀及其后每隔3個(gè)的各個(gè)數(shù)據(jù)幀。而第2個(gè)數(shù)據(jù)塊包含數(shù)據(jù)幀序列中的第2數(shù)據(jù)幀及其后每隔3個(gè)的各個(gè)數(shù)據(jù)幀。依此類推,順次排列的各數(shù)據(jù)幀都順次分配給四個(gè)數(shù)據(jù)塊的每一個(gè),直到每個(gè)數(shù)據(jù)塊包含同樣數(shù)目的數(shù)據(jù)幀為止。如果數(shù)據(jù)幀的數(shù)目不足以使各數(shù)據(jù)塊獲得相同數(shù)目的數(shù)據(jù)幀,則將序列中最后一個(gè)數(shù)據(jù)幀復(fù)制到其余數(shù)據(jù)塊以使各數(shù)據(jù)塊包含同樣數(shù)目的數(shù)據(jù)幀。
一個(gè)數(shù)據(jù)塊分配裝置被用來(lái)將數(shù)據(jù)塊從算法11傳送到神經(jīng)網(wǎng)絡(luò)12、13及14的輸入端。每個(gè)數(shù)據(jù)塊依次同時(shí)傳送到神經(jīng)網(wǎng)絡(luò)12、13及14。雖然在圖2中在語(yǔ)音識(shí)別系統(tǒng)中只示出3個(gè)神經(jīng)網(wǎng)絡(luò),但一個(gè)普通的專業(yè)人員都可理解,如果一個(gè)具體應(yīng)用要求多于或少于3個(gè)神經(jīng)網(wǎng)絡(luò),可以使用任何數(shù)目的神經(jīng)網(wǎng)絡(luò)。
一個(gè)普通的專業(yè)人員也會(huì)了解每個(gè)神經(jīng)網(wǎng)絡(luò)包括多個(gè)神經(jīng)元。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,各神經(jīng)網(wǎng)絡(luò)可能事前已受過訓(xùn)練來(lái)識(shí)別某一組語(yǔ)音音素。一般講,一個(gè)講出的語(yǔ)詞包括一個(gè)或多個(gè)語(yǔ)音音素。
神經(jīng)網(wǎng)絡(luò)12,13和14的作用如同分類裝置,根據(jù)數(shù)據(jù)塊確定所講出的是什么語(yǔ)詞。一般而言,一個(gè)分類裝置決定一個(gè)輸入模式屬于哪一類別。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,每個(gè)類別都用一已知語(yǔ)詞標(biāo)記,并且由一個(gè)預(yù)先確定的講出的語(yǔ)詞集(訓(xùn)練集)取得數(shù)據(jù)塊和用于確定各類別的邊界,可使各類別識(shí)別性能最佳的邊界。
在一個(gè)優(yōu)選實(shí)施例中,使用參數(shù)決策法來(lái)確定所講出的語(yǔ)詞是否屬于某一類別。使用這種方法時(shí),每個(gè)神經(jīng)網(wǎng)絡(luò)計(jì)算出一個(gè)不同的判別函數(shù)Yj(X),其中X={X1,X2,…,Xi}是一個(gè)數(shù)據(jù)塊中所包含的數(shù)據(jù)點(diǎn)集,i是一整數(shù)指標(biāo),而j是一個(gè)與該神經(jīng)網(wǎng)絡(luò)相對(duì)應(yīng)的整數(shù)指標(biāo)。在接收到一個(gè)數(shù)據(jù)塊時(shí),各該神經(jīng)網(wǎng)絡(luò)計(jì)算其相應(yīng)的判別函數(shù)。如果由某一神經(jīng)網(wǎng)絡(luò)計(jì)算出的判別函數(shù)大于其他每一網(wǎng)絡(luò)的判別函數(shù),則此數(shù)據(jù)塊屬于與該神經(jīng)網(wǎng)絡(luò)相對(duì)應(yīng)的特定類別。
換言之,每一神經(jīng)網(wǎng)絡(luò)決定一不同類別;于是每一神經(jīng)網(wǎng)絡(luò)識(shí)別一個(gè)不同的語(yǔ)詞。例如,神經(jīng)網(wǎng)絡(luò)12可通過訓(xùn)練來(lái)識(shí)別語(yǔ)詞“one”,神經(jīng)網(wǎng)絡(luò)13可通過訓(xùn)練來(lái)識(shí)別語(yǔ)詞“two”,依此類推。訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法將在下面標(biāo)題為“神經(jīng)網(wǎng)絡(luò)的訓(xùn)練”一節(jié)中介紹。
本發(fā)明的神經(jīng)網(wǎng)絡(luò)計(jì)算的判別函數(shù)系根據(jù)對(duì)多項(xiàng)式擴(kuò)展的利用以及,在不嚴(yán)格的意義上,利用一個(gè)正交函數(shù),如正弦、余弦、指數(shù)/對(duì)數(shù)、傅里葉變換、勒讓德多項(xiàng)式、非線性基本函數(shù)如維爾特拉函數(shù)或一徑向基本函數(shù),或其他,或多項(xiàng)式擴(kuò)展及正交函數(shù)的一種組合。
一種優(yōu)選實(shí)施例應(yīng)用一多項(xiàng)式擴(kuò)展,其一般形式由下面的等式4代表y=Σi=1∞wi-1x1g1ix2g2i...xngni---(4)]]>其中的Xi代表協(xié)處理器輸入并且可以是如Xi=fi(Zj)這樣的函數(shù),其中Zj是一任意變量,并且其中的指標(biāo)i和j可為任意正整數(shù);其中Y代表神經(jīng)網(wǎng)絡(luò)協(xié)處理器的輸出;其中的Wi-1代表第i個(gè)神經(jīng)元的權(quán);其中g(shù)1i,…,gni代表第i個(gè)神經(jīng)元的選通函數(shù),為整數(shù),在一優(yōu)選實(shí)施例中為零或大于零;而n為協(xié)處理器輸入的數(shù)目。
等式4的各項(xiàng)代表一神經(jīng)元輸出和與這種神經(jīng)元相關(guān)的權(quán)重及選通函數(shù)。在神經(jīng)網(wǎng)絡(luò)中應(yīng)用的多項(xiàng)式擴(kuò)展的項(xiàng)數(shù)是基于一些因子的,包括可用神經(jīng)元數(shù)、訓(xùn)練示例數(shù)等等。應(yīng)當(dāng)了解,多項(xiàng)式擴(kuò)展的較高階項(xiàng)通常比較低階項(xiàng)重要性更小。因此,在一優(yōu)選實(shí)施例中,只要有可能,應(yīng)根據(jù)上面所提到的變化因子選擇較低階的項(xiàng)。還有,因?yàn)榕c各種輸入有關(guān)的測(cè)量單位可能改變,輸入在使用之前可能需要?dú)w一化。
等式5為等式4的另一表現(xiàn)形式,所示各項(xiàng)達(dá)到3階各項(xiàng)。y=w0+Σi=1nwixi]]>+Σi=1nwf1(i)xi2]]>+Σi=1nΣj=i+1nwf2(i,j)xixj]]>+Σi=1nwf3(i)xi3]]>+Σi=1nΣj=i+1nwf4(i,j)xi2xj]]>+Σi=1nΣj=i+1nwf5(i,j)xixj2]]>+Σi=1nΣj=i+1nΣk=i+j+1nwf6(i,j,k)xixjxk]]>+ . . .
(5)其中的變量的意義與等式4中的相同,并且其中的f1(i)是一個(gè)在范圍n+1到2n中的指標(biāo)函數(shù);f2(i,j)是一個(gè)范圍在2n+1到2n+(n)(n-1)/2的指標(biāo)函數(shù);并且f3(i,j)是一個(gè)范圍在2n+1(n)(n-1)/2到3n+(n)(n-1)/2。而且f4至f6用類似的方式表示。
本專業(yè)的技術(shù)人員會(huì)看出選通函數(shù)嵌入在由等式5表示的各項(xiàng)中。例如,等式5可表示如下y=w0+w1x1+w2x2+...wixi+...+wnxn+wn+1x12+...+w2nxn2+w2n+1x1x2+w2n+2x1x3+...
+w3n-1x1xn+w3nx2x3+w3n+1x2x4+...w2n+(n)(n-1)/2xn-1xn+...
+wN-1 x1g1Nx2g2N...xngnN+...
(6)其中的變量的意義與等式4中的相同。
應(yīng)當(dāng)注意,雖然選通函數(shù)項(xiàng)gin只在等式6的最后示出的項(xiàng)中以顯式出現(xiàn),可以理解,其他各項(xiàng)中的每一項(xiàng)都具有顯式示出的giN項(xiàng)(例如對(duì)W1X1項(xiàng)g12=1并且gi2=0,i=2,3,…,n)。N為任意正整數(shù)并代表網(wǎng)絡(luò)中的第N個(gè)神經(jīng)元。
在本發(fā)明中,一個(gè)神經(jīng)網(wǎng)絡(luò)將對(duì)它所接收到的每一個(gè)數(shù)據(jù)塊生成一個(gè)輸出。因?yàn)橐粋€(gè)講出的語(yǔ)詞可由一個(gè)數(shù)據(jù)塊序列表示,所以每一個(gè)神經(jīng)網(wǎng)絡(luò)可生成一個(gè)輸出序列。為了提高語(yǔ)音識(shí)別系統(tǒng)的分類性能,每一個(gè)輸出序列都由一累加器求和。
于是在每個(gè)神經(jīng)網(wǎng)絡(luò)的輸出端都連接一個(gè)累加器。如前面就圖2所講過的,累加器15對(duì)來(lái)自神經(jīng)網(wǎng)絡(luò)12的輸出起作用,累加器16對(duì)來(lái)自神經(jīng)網(wǎng)絡(luò)13的輸出起作用,而累加器17對(duì)來(lái)自神經(jīng)網(wǎng)絡(luò)14的輸出起作用。累加器的功能是對(duì)來(lái)自神經(jīng)網(wǎng)絡(luò)的輸出序列求和。這可產(chǎn)生與該神經(jīng)網(wǎng)絡(luò)相對(duì)應(yīng)的和并且此和就與由一已知語(yǔ)詞標(biāo)記的類別相對(duì)應(yīng)。累加器15將來(lái)自神經(jīng)網(wǎng)絡(luò)12的順序輸出加到一累積和之上,而且累加器16和17對(duì)神經(jīng)網(wǎng)絡(luò)13和14分別實(shí)現(xiàn)同樣的功能。每個(gè)累加器將其和作為輸出。
選擇器18接受來(lái)自累加器的和,或順序接受或同時(shí)接受。在前一種情況下,選擇器18依次輪流接受來(lái)自各累加器的和,比如首先接受來(lái)自累加器15的和,其次為來(lái)自累加器16的和,依此類推;或者在后一種情況下,選擇器18同時(shí)接受來(lái)自累加器15、16和17的和。在接受和之后,選擇器18就確定哪一個(gè)和最大并分配相應(yīng)的已知語(yǔ)詞標(biāo)記,也即識(shí)別的語(yǔ)音語(yǔ)詞,給語(yǔ)音識(shí)別系統(tǒng)的輸出。
圖3示出圖2中的語(yǔ)音識(shí)別系統(tǒng)的操作方法。在方框20中使用者通過話筒1接收到一個(gè)講出語(yǔ)詞并將之轉(zhuǎn)換為一電信號(hào)。
在方框22中對(duì)語(yǔ)音信號(hào)進(jìn)行A/D轉(zhuǎn)換。在一優(yōu)選實(shí)施例中,A/D轉(zhuǎn)換由圖2中的預(yù)處理電路3完成。
之后,在方框24中對(duì)由A/D轉(zhuǎn)換所產(chǎn)生的數(shù)字化信號(hào)進(jìn)行倒頻譜分析。在一個(gè)優(yōu)選實(shí)施例中,倒頻譜分析也由圖2中的預(yù)處理電路3完成。倒頻譜分析產(chǎn)生一個(gè)數(shù)據(jù)幀序列,這些數(shù)據(jù)幀包含所講的語(yǔ)詞的相關(guān)特征。
在方框26中利用一個(gè)分而治之算法(其步驟示于圖5)用來(lái)從數(shù)據(jù)幀序列生成多個(gè)數(shù)據(jù)塊。分而治之算法是一種將幀序列劃分為較小的更便于操作的數(shù)據(jù)塊集的方法。
在方框28中將數(shù)據(jù)塊之一廣播給神經(jīng)網(wǎng)絡(luò)。從方框28出來(lái)后處理過程在方框30中繼續(xù)進(jìn)行。
在方框30每個(gè)神經(jīng)網(wǎng)絡(luò)利用數(shù)據(jù)塊來(lái)計(jì)算以多項(xiàng)式擴(kuò)展為根據(jù)的判別函數(shù)。各個(gè)神經(jīng)網(wǎng)絡(luò)計(jì)算出的判別函數(shù)各不相同,生成的判別函數(shù)為其輸出。由神經(jīng)網(wǎng)絡(luò)計(jì)算出的判別函數(shù)在操作語(yǔ)音識(shí)別系統(tǒng)之前通過如圖6所示之神經(jīng)網(wǎng)絡(luò)訓(xùn)練法來(lái)確定。
在方框32對(duì)每個(gè)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行相加求和,對(duì)每個(gè)神經(jīng)網(wǎng)絡(luò)都生成一個(gè)和。這一步驟生成多個(gè)神經(jīng)網(wǎng)絡(luò)和,其中每個(gè)和對(duì)應(yīng)于一個(gè)神經(jīng)網(wǎng)絡(luò)。
在決策方框34中,檢查是否有另一個(gè)數(shù)據(jù)塊要向神經(jīng)網(wǎng)絡(luò)廣播。如果是,則處理返回到方框28。如果不是,則處理進(jìn)入方框36。
接著在方框36中選擇器確定哪一個(gè)神經(jīng)網(wǎng)絡(luò)的和最大并將與該和相對(duì)應(yīng)的已知語(yǔ)詞標(biāo)記分配給語(yǔ)音識(shí)別系統(tǒng)的輸出。
分而治之算法圖4示出本發(fā)明的分而治之算法的數(shù)據(jù)輸入和輸出。分而治之算法是一種將數(shù)據(jù)幀序列劃分為較小的數(shù)據(jù)塊集的方法。算法的輸入是數(shù)據(jù)幀序列38,在本示例中該序列包含數(shù)據(jù)幀51-70。數(shù)據(jù)幀序列38包含代表語(yǔ)音取樣相關(guān)特征的數(shù)據(jù)。
在一優(yōu)選實(shí)施例中,每一數(shù)據(jù)幀包含12個(gè)數(shù)據(jù)點(diǎn),其中的每個(gè)數(shù)據(jù)點(diǎn)代表一個(gè)倒頻譜系數(shù)值或一個(gè)基于倒頻譜系數(shù)的函數(shù)。
數(shù)據(jù)點(diǎn)是32比特的數(shù)字字。每個(gè)數(shù)據(jù)幀對(duì)應(yīng)于講出語(yǔ)音樣例的時(shí)間間隔中的一個(gè)離散時(shí)間段。
本專業(yè)的技術(shù)人員將會(huì)理解本發(fā)明對(duì)于每幀的數(shù)據(jù)點(diǎn)數(shù)目或數(shù)據(jù)點(diǎn)位長(zhǎng)并未加有任何限制;在每個(gè)數(shù)據(jù)幀中所包含的數(shù)據(jù)點(diǎn)數(shù)可以是12或任何其他值,而數(shù)據(jù)點(diǎn)的位長(zhǎng)可以是32比特、16比特或任何其他值。
此外,數(shù)據(jù)點(diǎn)可用來(lái)表示倒頻譜平滑譜包絡(luò)線的數(shù)據(jù)以外的數(shù)據(jù)。例如,在各種應(yīng)用中,每個(gè)數(shù)據(jù)點(diǎn)可以表示某一頻率處的譜線幅值。
分而治之算法11順序接受語(yǔ)音樣例的每一幀并將該幀分配給幾個(gè)數(shù)據(jù)塊中的一個(gè)。每個(gè)數(shù)據(jù)塊由輸入幀序列的數(shù)據(jù)幀的子集構(gòu)成。數(shù)據(jù)塊42、44、46和48是分而治之算法11的輸出。雖然圖4示出的算法只生成4個(gè)數(shù)據(jù)塊,但是分而治之算法11并不限于只生成4個(gè)數(shù)據(jù)塊,可以生成多于或少于4個(gè)數(shù)據(jù)塊。
圖5示出執(zhí)行本發(fā)明的分而治之算法的方法的框圖。分而治之算法按照框圖步驟將數(shù)據(jù)序列劃分為數(shù)據(jù)塊集。
如方框75中所示,首先計(jì)算出本算法要生成的數(shù)據(jù)塊的數(shù)目。要生成的數(shù)據(jù)塊的數(shù)目用下面的方式計(jì)算。首先,接受每個(gè)數(shù)據(jù)塊中的幀數(shù)及序列中的幀數(shù)。塊數(shù)和幀數(shù)均為整數(shù)。其次,將幀數(shù)除以每塊中的幀數(shù)。之后,將除得之結(jié)果四舍五入得出最接近的整數(shù),而得出應(yīng)由分而治上算法生成的數(shù)據(jù)塊數(shù)目。在退出方框75時(shí)處理過程由方框77繼續(xù)。
在方框77中使幀序列中的首幀等于一稱為當(dāng)前幀的變量。一般人員都可了解當(dāng)前幀既可以由軟件變量代表,也可由硬件,如寄存器或存儲(chǔ)裝置代表。
接著在方框79,使當(dāng)前塊變量等于第一塊。在軟件中該當(dāng)前塊可以是代表一個(gè)數(shù)據(jù)塊的軟件變量。在采用硬件時(shí)此當(dāng)前塊可以是一個(gè)或多個(gè)寄存器或存儲(chǔ)裝置。在當(dāng)前塊等于第1塊之后,當(dāng)前幀被分配給當(dāng)前塊。然后處理過程轉(zhuǎn)入決策方框81。
之后,如決策方框81所示,檢查確定幀序列中是否還有更多的幀要處理。如是,處理過程由方框83繼續(xù)。如不是,處理過程跳轉(zhuǎn)到方框91。
在方框83中幀序列中的下一幀被接受并使之等于當(dāng)前幀變量。
在方框85中使當(dāng)前塊變量等于下一塊,然后將當(dāng)前幀變量分配給當(dāng)前塊變量。在退出方框85時(shí),處理過程轉(zhuǎn)入決策方框87。
如決策方框87中所示,如果當(dāng)前塊變量等于末塊,則處理過程由方框89繼續(xù),否則處理過程返回方框81。
在方框89使下一塊等于首塊,并且在退出方框89時(shí)處理過程返回決策方框81。
由決策方框81進(jìn)入方框91。在方框91中檢查確定當(dāng)前塊變量是否等于末塊。如是,處理過程結(jié)束。如不是,將當(dāng)前幀分配給當(dāng)前塊之后的各剩余數(shù)據(jù)塊,直到并包括末塊,如前面在介紹圖2時(shí)所解釋的那樣。
訓(xùn)練算法本發(fā)明的語(yǔ)音識(shí)別系統(tǒng)主要有兩種運(yùn)行模式(1)訓(xùn)練模式,利用講出的語(yǔ)詞樣例來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò);(2)識(shí)別模式,用來(lái)辨認(rèn)所講的未知語(yǔ)詞。參考圖2。一般講,使用者必須對(duì)著話筒1將要求系統(tǒng)識(shí)別的語(yǔ)詞全部講出以訓(xùn)練神經(jīng)網(wǎng)絡(luò)12、13和14。在某些情況下,訓(xùn)練可能局限于幾個(gè)使用者每個(gè)語(yǔ)詞進(jìn)一次。但是,本專業(yè)的技術(shù)人員會(huì)理解訓(xùn)練也可能要求任何數(shù)目的不同講話人將每個(gè)語(yǔ)詞讀出不止一遍。
為了使一個(gè)神經(jīng)網(wǎng)絡(luò)有用,必須確定每個(gè)神經(jīng)元電路權(quán)重。這一點(diǎn)可以通過使用適當(dāng)?shù)挠?xùn)練算法完成。
在實(shí)現(xiàn)本發(fā)明的神經(jīng)網(wǎng)絡(luò)時(shí),一般將神經(jīng)元或神經(jīng)元電路的數(shù)目選為等于或少于提供給網(wǎng)絡(luò)的訓(xùn)練示例的數(shù)目。
訓(xùn)練示例的定義為一組給定的輸入和產(chǎn)生的輸出。在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,對(duì)圖2中的話筒1所講的每一個(gè)語(yǔ)詞都至少會(huì)生成一個(gè)訓(xùn)練示例。
就本發(fā)明的一個(gè)優(yōu)選實(shí)施例而言,用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法示于圖6。
圖6示出根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例訓(xùn)練神經(jīng)網(wǎng)絡(luò)識(shí)別語(yǔ)音的方法的框圖。首先,在方框93,作為示例將一個(gè)已知語(yǔ)詞對(duì)著本語(yǔ)音識(shí)別系統(tǒng)的話筒講出。
在方框95,對(duì)語(yǔ)音信號(hào)進(jìn)行A/D轉(zhuǎn)換。對(duì)由A/D轉(zhuǎn)換輸出的數(shù)字化信號(hào)進(jìn)行倒頻譜分析。倒頻譜分析產(chǎn)生包含所講語(yǔ)詞的相關(guān)特征的數(shù)據(jù)幀序列。每個(gè)數(shù)據(jù)幀包括代表對(duì)所講的語(yǔ)詞的時(shí)間片的倒頻譜分析結(jié)果的12個(gè)32位字。在一個(gè)優(yōu)選實(shí)施例中,時(shí)間片的持續(xù)長(zhǎng)度為15毫秒。
本專業(yè)的技術(shù)人員可以理解本發(fā)明對(duì)數(shù)據(jù)幀中的字的位長(zhǎng)并無(wú)限制;位長(zhǎng)可以是32比特、16比特或任何其他值。此外,每個(gè)數(shù)據(jù)幀中的字?jǐn)?shù)和時(shí)間片的持續(xù)長(zhǎng)度可能不同,這取決于本發(fā)明應(yīng)用具體情況。
其次,在方框97中,利用分而治之算法(其步驟示于圖5)由數(shù)據(jù)幀序列產(chǎn)生多個(gè)數(shù)據(jù)塊。
在方框99中,從分而治之算法生成的塊中選擇一個(gè)。將訓(xùn)練示例的輸入部分設(shè)定為等于所選塊。
在方框101中,如果神經(jīng)網(wǎng)絡(luò)正在接受訓(xùn)練來(lái)識(shí)別所選定的塊,則將塊的輸出部分設(shè)定為1,否則設(shè)定為0。在退出方框101時(shí)處理過程由103繼續(xù)。
其次,在方框103中,將訓(xùn)練示例存儲(chǔ)于計(jì)算機(jī)5的存儲(chǔ)器中(圖1及2)。這樣就可以生成和存儲(chǔ)多個(gè)訓(xùn)練示例。
在決策方框105中檢查確定是否有由當(dāng)前數(shù)據(jù)幀序列產(chǎn)生的另一個(gè)數(shù)據(jù)塊要用來(lái)訓(xùn)練此神經(jīng)網(wǎng)絡(luò)。如是,處理過程返回方框99。如不是,處理過程前進(jìn)到?jīng)Q策方框107。
在決策方框107中,確定在訓(xùn)練期間是否有另一個(gè)要利用講出的語(yǔ)詞。如是,處理過程返回93,如果不是,處理過程由方框109繼續(xù)。
在方框109中比較所提供的訓(xùn)練示例數(shù)和神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的數(shù)目。如果神經(jīng)元的數(shù)目等于訓(xùn)練示例的數(shù)目,可以采用矩陣求逆的方法來(lái)求出每一個(gè)權(quán)重的值。如果神經(jīng)元的數(shù)目不等于訓(xùn)練示例的數(shù)目,可以采用最小二乘估算法來(lái)求出每一個(gè)權(quán)重的值。適合的最小二乘估算法包括,比如,最小二乘法、擴(kuò)充最小二乘法、偽逆法、卡爾曼濾波法、極大似然算法、貝斯估算法以及其他。
本說(shuō)明書中敘述了一種訓(xùn)練用于語(yǔ)音識(shí)別的神經(jīng)網(wǎng)絡(luò)的方法的概念以及包括一種優(yōu)選實(shí)施方案的數(shù)種實(shí)施方案。
由于本說(shuō)明書所描述的語(yǔ)音識(shí)別系統(tǒng)的各種實(shí)施方案利用了一種分而治之算法來(lái)分割語(yǔ)音樣例,并且利用了一種合適的方法來(lái)訓(xùn)練可對(duì)由分而治之算法生成輸出進(jìn)行操作處理的神經(jīng)網(wǎng)絡(luò),所以這些種實(shí)施方案對(duì)講話人的差異不敏感,而且不會(huì)受到背景噪聲的不利影響。
同樣令人欣賞的一點(diǎn)是此處所描述的語(yǔ)音識(shí)別系統(tǒng)的各種實(shí)施方案包括一種不要重復(fù)訓(xùn)練和對(duì)給定的輸入矢量集可產(chǎn)生全局極小的神經(jīng)網(wǎng)絡(luò);因而本發(fā)明的各實(shí)施方案與已知語(yǔ)音識(shí)別系統(tǒng)相比較所需訓(xùn)練時(shí)間大為減少而精確度則更高。
另外,對(duì)于本專業(yè)的技術(shù)人員能夠清楚了解此處公開的發(fā)明可以進(jìn)行多方面的改變并可提出與前文具體提出和描述的優(yōu)選實(shí)施方案不同的多種實(shí)施方案。
可以理解,本發(fā)明的概念可以在多方面加以變化。因此,本說(shuō)明書后附的權(quán)利要求各項(xiàng)就力圖將符合本發(fā)明精神并屬本發(fā)明的范圍的本發(fā)明的所有變化方案全部予以涵蓋。
權(quán)利要求
1.一種訓(xùn)練用于語(yǔ)音識(shí)別系統(tǒng)中的多個(gè)神經(jīng)網(wǎng)絡(luò)的方法,上述每個(gè)神經(jīng)網(wǎng)絡(luò)都包括多個(gè)神經(jīng)元,上述方法可產(chǎn)生多個(gè)訓(xùn)練樣例,其中上述訓(xùn)練樣例中每一個(gè)都包括一個(gè)輸入部分和一個(gè)輸出部分,上述方法由下面各步驟構(gòu)成(a)接受一個(gè)講出的語(yǔ)詞樣例;(b)對(duì)上述講出的語(yǔ)詞進(jìn)行模數(shù)轉(zhuǎn)換,上述轉(zhuǎn)換生成一個(gè)數(shù)字化語(yǔ)詞;(c)對(duì)上述數(shù)字化語(yǔ)詞進(jìn)行倒頻譜分析,上述分析產(chǎn)生一個(gè)數(shù)據(jù)幀序列;(d)由上述數(shù)據(jù)幀序列生成多個(gè)數(shù)據(jù)塊;(e)從上述多個(gè)數(shù)據(jù)塊中選擇一個(gè),并使上述多個(gè)訓(xùn)練樣例中的一個(gè)的上述輸入部分等于上述所選擇的數(shù)據(jù)塊;(f)從上述多個(gè)神經(jīng)網(wǎng)絡(luò)中選擇一個(gè),并確定上述選定的神經(jīng)網(wǎng)絡(luò)是否用于識(shí)別上述選定的數(shù)據(jù)塊;(i)如是,將上述一個(gè)訓(xùn)練樣例的上述輸出部分設(shè)置為1;(ii)如不是,將上述一個(gè)訓(xùn)練樣例的上述輸出部分設(shè)置為0;(g)存儲(chǔ)上述一個(gè)訓(xùn)練樣例;(h)確定是否存在上述多個(gè)數(shù)據(jù)塊的另外一個(gè);(i)如是,返回步驟(e);(ii)如不是,終止上述方法。
2.如權(quán)利要求1中所述的方法,其特征在于在步驟(d)上述多個(gè)數(shù)據(jù)塊通過下面的(d1)至(d11)的子步驟生成(d1)將上述語(yǔ)音樣例表示為一個(gè)幀序列;(d2)使一當(dāng)前幀等于上述幀序列的首幀;(d3)將上述當(dāng)前幀分配給上述多個(gè)數(shù)據(jù)塊的第一數(shù)據(jù)塊;(d4)使一當(dāng)前數(shù)據(jù)塊等于上述第一數(shù)據(jù)塊;(d5)確定在上述幀序列中是否有下一幀;(i)如是,進(jìn)行步驟(d6);(ii)如不是,進(jìn)行步驟(d11);(d6)使上述當(dāng)前幀等于上述下一幀;(d7)使上述當(dāng)前數(shù)據(jù)塊等于上述多個(gè)數(shù)據(jù)塊中的下一個(gè)數(shù)據(jù)塊;(d8)將上述當(dāng)前幀分配給上述當(dāng)前數(shù)據(jù)塊;(d9)確定上述當(dāng)前數(shù)據(jù)塊是否是上述多個(gè)數(shù)據(jù)塊中的最后一個(gè);(i)如是,進(jìn)行步驟(d10);(ii)如不是,返回步驟(d8);(d10)使上述下一個(gè)數(shù)據(jù)塊等于上述第一個(gè)數(shù)據(jù)塊,并返回步驟(d8);并且(d11)確定上述當(dāng)前數(shù)據(jù)塊是否是上述最后數(shù)據(jù)塊;(i)如不是,將上述當(dāng)前幀分配給上述多個(gè)數(shù)據(jù)塊中其余各塊;
3.如權(quán)利要求1中所述的方法,其特征在于在步驟(d)上述多個(gè)數(shù)據(jù)塊通過下面的(d1)至(d14)的子步驟生成(d1)確定表示上述語(yǔ)音樣例的上述幀序列中的幀數(shù);(d2)規(guī)定每個(gè)數(shù)據(jù)塊中的幀數(shù);并(d3)計(jì)算應(yīng)生成的數(shù)據(jù)塊數(shù)目;(d4)將上述語(yǔ)音樣例表示為一個(gè)幀序列;(d5)使一個(gè)當(dāng)前幀等于上述幀序列的首幀;(d6)將上述當(dāng)前幀分配給上述多個(gè)數(shù)據(jù)塊的第一數(shù)據(jù)塊;(d7)使一當(dāng)前數(shù)據(jù)塊等于上述第一數(shù)據(jù)塊;(d8)確定在上述幀序列中是否有下一幀;(i)如是,進(jìn)行步驟(d9);(ii)如不是,進(jìn)行步驟(d11);(d9)使上述當(dāng)前幀等于上述下一幀;(d10)使上述當(dāng)前數(shù)據(jù)塊等于上述多個(gè)數(shù)據(jù)塊中的下一個(gè)數(shù)據(jù)塊;(d11)將上述當(dāng)前幀分配給上述當(dāng)前數(shù)據(jù)塊;(d12)確定上述當(dāng)前數(shù)據(jù)塊是否是上述多個(gè)數(shù)據(jù)塊中最后一個(gè);(i)如是,進(jìn)行步驟(d13);(ii)如不是,返回步驟(d8);(d13)使上述下一個(gè)數(shù)據(jù)塊等于上述第一個(gè)數(shù)據(jù)塊,并返回步驟(d8);并(d14)確定上述當(dāng)前數(shù)據(jù)塊是否是上述最后數(shù)據(jù)塊;(i)如不是,將上述當(dāng)前幀分配給上述多個(gè)數(shù)據(jù)塊中其余各塊。
4.如權(quán)利要求3中所述的方法,其特征在于在步驟(d3)上述數(shù)據(jù)塊的數(shù)目由下面的(d31)和(d32)子步驟計(jì)算(d31)將上述幀數(shù)除以上述每數(shù)據(jù)塊的幀數(shù)并得出一個(gè)結(jié)果;并(d32)將上述結(jié)果四舍五入求整。
5.如權(quán)利要求1所述的方法,其特征在于上述幀序列中的每一幀都包括多個(gè)數(shù)據(jù)點(diǎn),其中每個(gè)上述數(shù)據(jù)點(diǎn)代表一個(gè)以倒頻譜系數(shù)為依據(jù)的函數(shù)值。
6.如權(quán)利要求1中所述的方法,其特征在于上述神經(jīng)網(wǎng)絡(luò)中的每一個(gè)的操作都以一個(gè)多項(xiàng)式擴(kuò)展為依據(jù)。
7.如權(quán)利要求6中所述的方法,其特征在于上述多項(xiàng)式擴(kuò)展具有如下形式y(tǒng)=Σi=1∞wi-1x1g1ix2g2i...xngni]]>其中Y表示神經(jīng)網(wǎng)絡(luò)的輸出;其中Wi-1表示第i個(gè)神經(jīng)元的權(quán)值;其中X1,X2,…,Xn表示上述神經(jīng)網(wǎng)絡(luò)的輸入;其中g(shù)1i,…,gni表示用于各上述輸入的第i個(gè)神經(jīng)元的選通函數(shù);并且其中n是一正整數(shù)。
8.如權(quán)利要求7中所述的方法,其特征在于每個(gè)Xi都由一個(gè)函數(shù)Xi=fi(Zj)表示,其中Zj是一任意變量,并且其中指標(biāo)i和j是任何正整數(shù)。
9.如權(quán)利要求7中所述的方法,其特征在于上述神經(jīng)網(wǎng)絡(luò)中的每一個(gè)的動(dòng)作都是以上述多項(xiàng)式擴(kuò)展的截?cái)嘈问綖榛A(chǔ)。
10.如權(quán)利要求1中所陳述的方法,其特征在于每個(gè)訓(xùn)練樣例都只由上述方法使用一次。
全文摘要
一用于識(shí)別孤立語(yǔ)詞的語(yǔ)音識(shí)別系統(tǒng)包括一個(gè)用來(lái)進(jìn)行模數(shù)轉(zhuǎn)換和倒頻譜分析的預(yù)處理電路和根據(jù)多項(xiàng)式擴(kuò)展計(jì)算判定函數(shù)的多個(gè)神經(jīng)網(wǎng)絡(luò)。此系統(tǒng)可利用硬件或軟件或兩者的結(jié)合而實(shí)現(xiàn)。講出的語(yǔ)詞的語(yǔ)音波形經(jīng)過分析轉(zhuǎn)換為一個(gè)數(shù)據(jù)幀序列。該數(shù)據(jù)幀序列被劃分為數(shù)據(jù)塊,然后數(shù)據(jù)塊被廣播給多個(gè)神經(jīng)網(wǎng)絡(luò)。利用數(shù)據(jù)塊神經(jīng)網(wǎng)絡(luò)可計(jì)算多項(xiàng)式擴(kuò)展。神經(jīng)網(wǎng)絡(luò)的輸出用來(lái)確定講出的語(yǔ)詞的身份。此神經(jīng)網(wǎng)絡(luò)采用的訓(xùn)練算法不要求重復(fù)訓(xùn)練并可對(duì)每一個(gè)給定的樣例集產(chǎn)生全局極小。
文檔編號(hào)G06N3/00GK1151218SQ9519341
公開日1997年6月4日 申請(qǐng)日期1995年4月25日 優(yōu)先權(quán)日1994年6月3日
發(fā)明者沙-平·托馬斯·王 申請(qǐng)人:摩托羅拉公司