專利名稱::漢語普通話話音識(shí)別的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種應(yīng)用聲母和韻母的相似性向量進(jìn)行漢語普通話話音識(shí)別的方法和設(shè)備。本發(fā)明的目的在于改善識(shí)別準(zhǔn)確度和降低所需的建立在用于漢語普通話話音識(shí)別系統(tǒng)的單數(shù)字信號(hào)處理(DSP)芯片上的存儲(chǔ)規(guī)模。本發(fā)明更為具體的目的在于提出不僅旨在根據(jù)漢語聲母和韻母音素相似性提高漢語普通話話音識(shí)別率,而且還旨在降低所需的存儲(chǔ)規(guī)模的方法。二十多年以來,對(duì)普通話話音識(shí)別技術(shù)的研究和開發(fā)已經(jīng)成了不僅在學(xué)術(shù)領(lǐng)域中,而且在面向商業(yè)的私營公司中的熱門話題。顯然,人類的話音是根據(jù)聲道的形狀及其瞬時(shí)的變化產(chǎn)生的,取決于發(fā)音器官的形狀或大小的聲道形狀必然是因人而異的。另一方面,也取決于發(fā)出的字的聲道的時(shí)間順序模式也有很小的具體差別。因此,可以將發(fā)音的特征分成兩個(gè)要素即聲道的形狀和瞬時(shí)模式。前者因說話者的不同差別很大,而后者差別是比較小的。所以如果對(duì)取決于聲道形狀的區(qū)別以某種方式進(jìn)行標(biāo)準(zhǔn)化,則僅利用少量說話者的發(fā)音即可對(duì)具體人的話音實(shí)現(xiàn)識(shí)別。聲道形狀的不同將導(dǎo)致不同的頻譜。一種用于對(duì)說話者的頻譜區(qū)別進(jìn)行標(biāo)準(zhǔn)化的方法是通過采用將話音輸入與為非特定說話者建立的音素樣板比較的方法對(duì)話音輸入進(jìn)行分類。該運(yùn)算實(shí)現(xiàn)了并不特別取決于說話者區(qū)別的相似性。同時(shí)聲道的瞬時(shí)模式被認(rèn)為只有很小的差別。話音是人類最基本的通信手段,此點(diǎn)是促使了解話音生成機(jī)理的動(dòng)因。諸如聲音的重疊振蕩的非線性、聲道發(fā)音器的動(dòng)態(tài)、語言規(guī)律的知識(shí)和聲門源與聲道耦合聲學(xué)效應(yīng)等領(lǐng)域都是不斷進(jìn)行研究的領(lǐng)域。通過對(duì)基本話音分析的不間斷的研究實(shí)現(xiàn)了話音合成、編碼和識(shí)別等新穎的和更實(shí)用的手段。在歷史發(fā)展的進(jìn)程中J.Q.斯圖爾德(1922)研制出第一個(gè)用于對(duì)話音?;娜娮泳W(wǎng)絡(luò)。由老式的話音處理系統(tǒng)到最新的進(jìn)展,我們了解了就聲道發(fā)音器的位置和移動(dòng)、其時(shí)間波形特性的變化和諸如格式位置和帶寬等頻域特性等方面的話音聲學(xué)。由于需要發(fā)音器進(jìn)行有限的移動(dòng),以便產(chǎn)生每個(gè)聲音,所以話音發(fā)生系統(tǒng)是不能進(jìn)行即刻變化的。與聽覺系統(tǒng)不同,所述聽覺系統(tǒng)僅用于聽的目的,而用于生成話音的器官還承擔(dān)其它的諸如呼吸、吃東西和發(fā)出氣味等功能。就人際的話音通信的目的而言,考慮的僅是由說話者產(chǎn)生的聲音信號(hào)。事實(shí)上,還存在許多與之并列的人與電子之間的通信。受人的生成話音的器官和聽覺系統(tǒng)的限制,典型的人類話音通信被限定在7-8kHz帶寬上。旨在進(jìn)行測定的對(duì)聲道的研究和理解自然話音信號(hào)與生理機(jī)理,即生成話音的人體聲道機(jī)理和聽取話音的人體聽覺系統(tǒng)間的關(guān)系科學(xué),被稱作“聲學(xué)”。最新的方案對(duì)人類的說和聽的人體系統(tǒng)進(jìn)行評(píng)價(jià)并且通過數(shù)字化將這些人類的通信信號(hào)變成參數(shù),例如聲學(xué)特征抽取。人類的聲音特征因人而異,即每個(gè)人都具有其獨(dú)自的聲音特征。通常用于不受說話者區(qū)別影響的話音識(shí)別的標(biāo)準(zhǔn)模式是通過對(duì)說話者的話音數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理實(shí)現(xiàn)的。其中有幾種比較方法,例如一種應(yīng)用統(tǒng)計(jì)距離量度的方法和一種應(yīng)用神經(jīng)網(wǎng)絡(luò)模型的方法,例如臺(tái)灣專利303452;和隱式馬爾可夫模型(HMM),例如臺(tái)灣專利283774和269036。尤其是報(bào)導(dǎo)了許多采用連續(xù)混合高斯密度模型成功的實(shí)現(xiàn)的隱式馬爾可夫模型(HMM)。采用這些方法時(shí),應(yīng)用作為特征參數(shù)的頻譜參數(shù)進(jìn)行話音識(shí)別并且通常需要大量的說話者,以進(jìn)行訓(xùn)練。為實(shí)現(xiàn)高的識(shí)別率還要付出巨大的存儲(chǔ)代價(jià)。如果由少量的說話者可以實(shí)現(xiàn)用于不受說話者區(qū)別影響的話音識(shí)別的標(biāo)準(zhǔn)模式,則測定的規(guī)模將可大大小于通常的方式。因而可以節(jié)省人力和測定并且話音識(shí)別方法則易于用于各種應(yīng)用。為實(shí)現(xiàn)上述目的,我們提出應(yīng)用作為特征參數(shù)的相似性向量的話音識(shí)別設(shè)備的發(fā)明。根據(jù)此方法,由少量的說話者訓(xùn)練出的字樣板在對(duì)不受說話者區(qū)別影響的識(shí)別時(shí)可實(shí)現(xiàn)高的識(shí)別率。為了在實(shí)際應(yīng)用時(shí)實(shí)現(xiàn)話音識(shí)別技術(shù),話音識(shí)別設(shè)備必須耐躁聲環(huán)境并且針對(duì)的是來自背景躁聲的字,而不是針對(duì)發(fā)音。另外,話音識(shí)別設(shè)備必須作為便攜式設(shè)備必須保持高的質(zhì)量性能。出于此考慮,本發(fā)明集中在用于便攜式設(shè)備的漢語話音識(shí)別系統(tǒng)內(nèi)的小規(guī)模的編程編碼,但高準(zhǔn)確度的識(shí)別率。有許多用于英語話音識(shí)別的算法和方法,然而漢語就其話語表達(dá)而言具有一些完全不同于西方語言的主要的特性。例如公知的區(qū)別是每個(gè)漢字的聲調(diào)信息和單音節(jié)聲音模式。就漢語話語的字而言,漢語口語是雙音節(jié)的語言,其中一個(gè)字由在最后的元音前面的輔音或鼻音構(gòu)成。在前面的輔音被稱作“聲母”。聲母的發(fā)音時(shí)間很短并通過韻母起作用,而韻母在前面具有一個(gè)過渡部分。例如漢字“關(guān)”《メㄢ(g+uanl)或“心”T一ㄣ(s+ingl)等。韻母的中間部分是固定不變的并且對(duì)韻母組的整個(gè)集是相同的。每個(gè)韻母的結(jié)束部分的特征是有一個(gè)發(fā)音的或不發(fā)音的結(jié)束輔音。普通話共有21個(gè)聲母和一個(gè)輕聲母和36個(gè)韻母,所述韻母包括組成整個(gè)韻母的中間過渡和輕韻母。如果不考慮四聲,則共有409個(gè)普通話音節(jié)集。如果將聲調(diào)與音素組合在一起,則共有1345個(gè)不同的普通話音節(jié)。漢語口語的另外一個(gè)特征是發(fā)音特性的同音異意性,其中具有相同音素的不同的聲調(diào)表示不同的漢字。為實(shí)現(xiàn)漢語口語的準(zhǔn)確的識(shí)別率,以有效的、關(guān)鍵性的和健全的方式由漢語話音信號(hào)提取相關(guān)信息的處理過程是重要的技術(shù)。有許多用于漢語話音識(shí)別的方法,其中包括有用于對(duì)話音信號(hào)的時(shí)間變化特性進(jìn)行特征化的頻譜分析以及使話音信號(hào)耐各種記錄環(huán)境的信號(hào)預(yù)處理和后處理。這些方法通常與數(shù)字信號(hào)處理(DSP)技術(shù)和許多數(shù)學(xué)模型和公式相關(guān)聯(lián),例如DFT(離散型傅立葉變換)(或FFT(快速傅立葉變換))、有限脈沖響應(yīng)(FIR)、Z變換、線性預(yù)測編碼(LPC)、神經(jīng)網(wǎng)絡(luò)和隱式馬爾可夫模型(HMM)。盡管提出了許多用于漢語話音識(shí)別的數(shù)學(xué)模型,但這些方法用少量的訓(xùn)練說話者數(shù)據(jù)庫仍不能提高識(shí)別準(zhǔn)確度。在以基本的傳統(tǒng)的聲母-韻母結(jié)構(gòu)為基礎(chǔ)的用于漢語話音識(shí)別的方案中,應(yīng)用的是漢語聲母-韻母特性。該傳統(tǒng)的方案采用此方法用于將作為聲母和韻母鏈接的輸入音節(jié)?;?。但對(duì)該方案的應(yīng)用并不意味著將輸入的音節(jié)明顯地分為兩部分。采用這種聲母-韻母結(jié)構(gòu)的?;?,必須通過對(duì)聲母和韻母的鑒別實(shí)現(xiàn)對(duì)音節(jié)集的識(shí)別。在應(yīng)用聲母-韻母特征的系統(tǒng)中,對(duì)聲母和韻母的識(shí)別是必不可少的部分。在最初階段,幾名發(fā)明人,例如在臺(tái)灣專利273615、278174(美國專利US5704004)和219993提出的用于分別識(shí)別聲母和韻母的方法。美國專利US5704004是臺(tái)灣專利278174的同族專利。音節(jié)首先被分成兩部分并且對(duì)其進(jìn)行分別識(shí)別。即聲母首先由音節(jié)分出并根據(jù)諸如零交叉率、平均能量和音節(jié)時(shí)間等提取的特征被分類成發(fā)音的和不發(fā)音的部分。接著,采用這些特征向量建立特征編碼簿。應(yīng)用有限狀態(tài)向量量化可以實(shí)現(xiàn)識(shí)別。在這些傳統(tǒng)的系統(tǒng)中,首先了解韻母。所以可以在被識(shí)別的韻母組中進(jìn)行輔音分類。根據(jù)實(shí)驗(yàn)結(jié)果,該傳統(tǒng)的方案的識(shí)別準(zhǔn)確度只能達(dá)到93%(臺(tái)灣專利273615)。同時(shí),這些方案為進(jìn)行處理必須建立無數(shù)的說話者的大型的話音大全。故提出本發(fā)明,不僅旨在改善識(shí)別準(zhǔn)確度,而且也旨在實(shí)現(xiàn)一種可降低編程編碼規(guī)模的漢語話音識(shí)別系統(tǒng)的設(shè)備。本發(fā)明旨在提出一種采用作為特征參數(shù)的相似性向量的高準(zhǔn)確度的不受說話者區(qū)別影響的漢語話音識(shí)別系統(tǒng)。在躁聲環(huán)境條件下包括臺(tái)灣的106個(gè)城市名稱的字識(shí)別率的實(shí)驗(yàn)結(jié)果達(dá)97.3%。本發(fā)明的漢語話音的識(shí)別率大大高于傳統(tǒng)的方法(例如臺(tái)灣專利273615、278174)。其準(zhǔn)確度高于其它傳統(tǒng)的方法4.5%。本發(fā)明的目的在于提出采用聲母/韻母相似性向量的用于漢語普通話話音識(shí)別的設(shè)備,以便提高漢語話音識(shí)別準(zhǔn)確度并降低所需的存儲(chǔ)規(guī)模。本發(fā)明的目的還在于提出采用聲母/韻母相似性向量的漢語普通話話音識(shí)別的方法。一種漢語普通話識(shí)別的方法包括如下步驟根據(jù)聲母部分訓(xùn)練音素相似性向量(PSV)模型,以便建立一具有訓(xùn)練出的聲母部分模型參數(shù)的聲母部分模型;根據(jù)韻母部分訓(xùn)練音素相似性向量(PSV),以便建立一具有訓(xùn)練出的韻母部分模型參數(shù)的模型;訓(xùn)練話音音節(jié)的音素相似性向量,以便采用作為音節(jié)模型的啟始參數(shù)的訓(xùn)練出的聲母部分參數(shù)值和訓(xùn)練出的韻母部分參數(shù)值建立音節(jié)模型;采用音節(jié)模型對(duì)目標(biāo)話音取樣進(jìn)行操作;根據(jù)目標(biāo)話音取樣與音節(jié)模型的符合度對(duì)作為目標(biāo)話音音節(jié)的目標(biāo)話音取樣進(jìn)行識(shí)別,和對(duì)作為與目標(biāo)話音音節(jié)相符的漢字的目標(biāo)話音取樣加以表示。一種漢語普通話識(shí)別方法另外還包括如下步驟根據(jù)通用的上下文關(guān)系的漢字順序訓(xùn)練動(dòng)態(tài)時(shí)間Warp編譯器,以便建立漢語模型;采用漢語模型對(duì)目標(biāo)音節(jié)取樣中的目標(biāo)話音音節(jié)順序進(jìn)行操作;對(duì)作為與漢語模型相符的目標(biāo)話音音節(jié)一致的漢字的目標(biāo)話音取樣加以表示;和對(duì)作為與目標(biāo)話音音節(jié)相符的順序一致的漢字順序的目標(biāo)話音取樣加以表示。一種漢語普通話話音識(shí)別設(shè)備,包括一個(gè)話音信號(hào)濾波器,用于接收話音信號(hào)和產(chǎn)生經(jīng)濾波的模擬信號(hào);一個(gè)模/數(shù)(A/D)轉(zhuǎn)換器,用于將話音信號(hào)轉(zhuǎn)換成數(shù)字話音信號(hào);一個(gè)計(jì)算機(jī),該計(jì)算機(jī)與A/D轉(zhuǎn)換器連接,用于接收和處理數(shù)字信號(hào);一個(gè)音調(diào)鑒頻器,該鑒頻器與計(jì)算機(jī)連接,用于對(duì)話音信號(hào)的音調(diào)頻率特征進(jìn)行檢測,從而實(shí)現(xiàn)對(duì)話音信號(hào)中的聲音進(jìn)行識(shí)別;一個(gè)話音信號(hào)預(yù)處理器,該處理器與計(jì)算機(jī)連接,用于對(duì)話音信號(hào)的音節(jié)的結(jié)束點(diǎn)進(jìn)行檢測,從而實(shí)現(xiàn)對(duì)音節(jié)的開始和結(jié)束的確定;和一個(gè)訓(xùn)練部分,該部分與計(jì)算機(jī)連接,用于對(duì)聲母部分音素相似性向量(PSV)模型和韻母部分音素相似性向量(PSV)模型進(jìn)行訓(xùn)練并用于根據(jù)聲母部分音素相似性向量(PSV)模型和韻母部分音素相似性向量(PSV)模型的訓(xùn)練出的參數(shù)對(duì)音節(jié)模型進(jìn)行訓(xùn)練。下面將結(jié)合優(yōu)選實(shí)施例并對(duì)照附圖對(duì)本發(fā)明的這些和其它目的和特征加以詳細(xì)的說明,其中對(duì)相同的部分采用相同的附圖標(biāo)記加以標(biāo)示。圖中示出圖1為本發(fā)明的優(yōu)選實(shí)施例的系統(tǒng)框圖;圖2為本發(fā)明輸入部分的處理過程的框圖;圖3為本發(fā)明的音頻分析部分的處理過程的框圖;圖4為本發(fā)明的相似性計(jì)算部分的處理過程的框圖;圖5為本發(fā)明的濾波和模/數(shù)信號(hào)轉(zhuǎn)換的詳細(xì)的處理框圖;圖6為本發(fā)明的模/數(shù)轉(zhuǎn)換的電路圖;圖7為本發(fā)明的帶通濾波器的詳細(xì)的處理框圖8為本發(fā)明的線性預(yù)測編碼(LPC)分析功能塊的詳細(xì)的處理框圖;圖9示出本發(fā)明的相似性計(jì)算和相似性參數(shù)生成的處理過程和及其算法;圖10示出本發(fā)明的識(shí)別部分的處理過程;圖11為用于本發(fā)明的音素模型化的漢語基本音節(jié)和聲調(diào)信息表;圖12、13和14為本發(fā)明的用于音素模型化的漢語詳細(xì)的音素信息表;圖15為本發(fā)明的動(dòng)態(tài)編程表;和圖16示出用于實(shí)驗(yàn)性的字樣板的106個(gè)城市名稱。本發(fā)明采用用少量的訓(xùn)練說話者用于漢語普通話話音識(shí)別的系統(tǒng)和方法克服了現(xiàn)有技術(shù)的缺陷和制約。在本發(fā)明的話音識(shí)別系統(tǒng)中共有五個(gè)部分,即輸入部分20、音頻分析部分30、相似性計(jì)算部分40、識(shí)別部分50和輸出部分60。本發(fā)明宜在一規(guī)模-集成的器件中實(shí)現(xiàn)對(duì)音節(jié)的聲母和韻母的判定,以便實(shí)現(xiàn)對(duì)漢字的發(fā)音信息的鑒別。圖1示出本發(fā)明的用于漢語話音識(shí)別的結(jié)構(gòu)。在本發(fā)明的設(shè)備中,輸入部分20用于對(duì)人的話音信號(hào)輸入進(jìn)行處理。圖2為輸入部分20的基本方框圖。由于人的話音是一種模擬信號(hào),故必須將來自受話器輸入端的信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),以便用計(jì)算機(jī)(S205和S210)進(jìn)行進(jìn)一步的測定。通常,人的話音頻率在125Hz至3.5KHz的范圍內(nèi),因而必須在模/數(shù)轉(zhuǎn)換器的前面建立一個(gè)低通濾波器,以便獲得真實(shí)的人的話音信號(hào)并將來自實(shí)際環(huán)境的多余的躁聲信號(hào)濾除(S215)。圖3為音頻分析部分30的基本框圖。在該音頻分析部分30中有三個(gè)專用的處理方框(S305、S310和S315),包括帶通濾波器、特征參數(shù)的提取和線性預(yù)測編碼(LPC)分析模型。在音頻分析部分30后面進(jìn)行計(jì)算,圖4為相似性計(jì)算部分40的框圖。本發(fā)明以用戶產(chǎn)生一個(gè)話音信號(hào)開始,實(shí)施一給定的任務(wù)。第二步,首先對(duì)話音輸出進(jìn)行識(shí)別,其中話音信號(hào)根據(jù)音素樣板被譯碼成有意義的音素系列。音頻分析部分30對(duì)話音輸入和提取的線性預(yù)測編碼(LPC)對(duì)數(shù)倒頻譜系數(shù)和能量的增量進(jìn)行分析。提取的參數(shù)與多種音素樣板進(jìn)行比較,并且在相似性計(jì)算部分40中對(duì)靜態(tài)音素相似性和音素的一次回歸系數(shù)進(jìn)行計(jì)算。此后,這些音素樣板的時(shí)間順序用于確定空間相似系數(shù)向量并求出回歸系數(shù)向量。假定所有的音素的協(xié)方差矩陣都是相同的,在相似性測量部分40應(yīng)用馬哈朗諾比斯距離算法進(jìn)行距離測量。由后處理器求出被識(shí)別的字的意義,后處理器應(yīng)用動(dòng)態(tài)編程,將輸入的字與實(shí)際的字和預(yù)先通過音素相似性計(jì)算被識(shí)別的字進(jìn)行比較。因此,后處理可根據(jù)預(yù)先的音素結(jié)果作出判定,此點(diǎn)將降低所有識(shí)別模式的復(fù)雜性。最后,識(shí)別系統(tǒng)以話音輸出方式或類似的以提出實(shí)施的旨在促使用戶進(jìn)一步輸入的動(dòng)作要求對(duì)用戶作出響應(yīng)。下面不僅對(duì)每個(gè)過程,而且還對(duì)算法進(jìn)行說明,以便對(duì)本發(fā)明設(shè)備的詳細(xì)的處理過程加以闡述。圖5示出模/數(shù)信號(hào)轉(zhuǎn)換的處理過程。絕大部分信號(hào)就其本質(zhì)而言是模擬形式的,因而需要進(jìn)行模/數(shù)轉(zhuǎn)換處理,該轉(zhuǎn)換處理包括如下步驟1)模擬輸入信號(hào),該信號(hào)的時(shí)間和振幅是連續(xù)的。2)取樣信號(hào),該信號(hào)的振幅是連續(xù)的,但僅在離散的時(shí)間點(diǎn)上被定義。3)數(shù)字信號(hào),x(n)(n=0,1,…)。該信號(hào)僅在離散的時(shí)間點(diǎn)上存在并且在每個(gè)時(shí)間點(diǎn)上只能有2B個(gè)數(shù)值中的一個(gè)。圖6為A/D轉(zhuǎn)換器的電路圖。圖7示出音頻分析部分的帶通濾波器的詳細(xì)的處理步驟。取樣的話音信號(hào),s(n),通過Q個(gè)帶通濾波器,輸出信號(hào)Si(n)=s(n)*hi(n),1≤i≤Q]]>=Σm=0Ml-1hi(m)s(n-m)]]>其中設(shè)定第i個(gè)帶通濾波器的脈沖響應(yīng)是持續(xù)時(shí)間為Mi取樣的hi(m)。同時(shí)設(shè)定第i個(gè)帶通濾波器的輸出是頻率為wi的純正弦波,即Si=aisin(win)。如果采用作為非線性的全波檢波器,即f(Si(n))=Si(n)當(dāng)Si(n)≥0時(shí)=-Si(n)當(dāng)Si(n)<時(shí)則可以用Vi(n)=f(Si(n))=Si(n)·W(n)表示非線性輸出,其中W(n)=+1當(dāng)Si(n)≥0時(shí)=-1當(dāng)Si(n)<0時(shí)在非線性處理后,低通濾波器起著將高頻部分濾除的作用。盡管低通信號(hào)的頻譜不是一個(gè)純直流的脈沖,但代之的是在直流附近的低頻段內(nèi)含有的信號(hào)信息。因此末級(jí)的低通濾波器的重要作用在于去掉不需要的頻率峰值。在降低取樣速率的步驟中,對(duì)低通濾出的信號(hào),ti(n)以40-60Hz的速率重新取樣,并且采用振幅壓縮方案對(duì)信號(hào)的動(dòng)態(tài)范圍進(jìn)行壓縮。在分析器的輸出端上,當(dāng)采用的取樣速率為50Hz并且應(yīng)用一7比特對(duì)數(shù)振幅壓縮器時(shí),則得到的信息速率為16路×50(取樣/秒/路)×7(比特/取樣),或5600(比特/秒)。因此,就此取樣舉例而言,可將比特率減少到1/40。圖8中示出音頻分析部分的LPC分析模型。LPC方法曾長期用于大量的識(shí)別器。尤其是隱含在LPC模型后面的基本構(gòu)思在于,在時(shí)間n,S(in)時(shí)的特定的話音取樣可以近似等于在后的p個(gè)話音取樣的線性結(jié)合,即S’(n)≈a1S(n-1)+a2S(n-2)+…+apS(n-P),其中系數(shù)a1,a2……,ap設(shè)定為話音分析幀的常數(shù)。在本發(fā)明的設(shè)備中,確定數(shù)值a1,a2,……,ap為0.95。在幀分組步驟中,對(duì)預(yù)加重的話音信號(hào)進(jìn)行預(yù)處理,S’(n),被組成N個(gè)取樣的幀,所述幀與相鄰的幀間隔M個(gè)幀。設(shè)定,用x1(n)表示話音的第1個(gè)幀,并且在整個(gè)話音信號(hào)中有L個(gè)幀,則xi(n)=S’(Ml+n),n=0,1,……N-1,l=0,1,……,L-1。在本發(fā)明的設(shè)備中,N和M的值分別為300和100,所述值與8kHz的話音取樣速率相符。此后,處理中的下一步驟是對(duì)每個(gè)幀開窗口,以便最大限度地減少在每個(gè)幀開始和結(jié)束處的信號(hào)不連續(xù)性。在本發(fā)明的系統(tǒng)中,將窗口定義為w(n),0≤n≤N-1,并且開窗口的結(jié)果是信號(hào)x1’=x1(n)w(n),0≤n≤N-1。本發(fā)明的設(shè)備用于LPC自動(dòng)修正方法的窗口是漢明窗口,其式為w(n)=0.54-0.46cos(2πn/N-1),0≤n≤N-1。據(jù)此,進(jìn)行自動(dòng)修正分析。接著對(duì)每個(gè)開窗口的信號(hào)的幀進(jìn)行自動(dòng)修正,得出ri(m)=Σn=0N-1-mxi′(n)xi′(n+m),----m=0,1,.....,p]]>其中,最大的自動(dòng)修正值,p,是LPC分析的階。下一個(gè)處理級(jí)是LPC分析,該分析將每個(gè)p+1自動(dòng)修正的幀轉(zhuǎn)換成“LPC參數(shù)集”,其中集可以是LPC系數(shù)、反射系數(shù)、記錄區(qū)域比系數(shù)和對(duì)數(shù)倒頻譜系數(shù)。在本發(fā)明的系統(tǒng)中,應(yīng)用了杜賓(Durbin)方法并給出下述算法的式子E(0)=r(0)ai(i)=kiαj(i)=αj(i-1)-kiαi-ji-1]]>E(i)=(1-ki2)E(i-1)]]>可以在i=1,2,……,p的情況下,遞歸地對(duì)上述等式組進(jìn)行計(jì)算,并且最后的解為am=LPC系數(shù)=am(p),l≤m≤p。在求出LPC分析系數(shù)后,將LPC參數(shù)轉(zhuǎn)換成對(duì)數(shù)倒頻譜系數(shù),對(duì)該系數(shù)的處理在下面還將述及??梢灾苯佑蒐PC系數(shù)集推導(dǎo)出的該非常重要的LPC參數(shù)集,該參數(shù)集是LPC對(duì)數(shù)倒頻譜系數(shù),c(m)。應(yīng)用的遞歸是C0=lnδ2Cm=αmΣk=1m-1(km)Ckαm-k,-----1≤m≤p]]>Cm=Σk=1m-1(k/m)Ckαm-k,----m>p]]>其中δ2是LPC模型的增益相。至今我們已得到了輸入向量C,該向量由許多幀中的LPC對(duì)數(shù)倒頻譜系數(shù)和能量增量構(gòu)成。圖9示出本發(fā)明的設(shè)備相似性計(jì)算部分的詳細(xì)的處理步驟及其算法。在該相似性計(jì)算部分中采用了馬哈朗諾比斯距離作為距離量度,其中設(shè)定所有音素的協(xié)方差矩陣是相同的。輸入向量c由十個(gè)幀中的LPC對(duì)數(shù)倒頻譜系數(shù)和能量增量構(gòu)成。如在圖9中的第一個(gè)方框所示,輸入向量c的表示式如下c=(v1,c1c,c11,…v10,…,c1013)t,其中ck1表示第k個(gè)幀的第i個(gè)LPC對(duì)數(shù)倒頻譜系數(shù)并且vk表示第k個(gè)幀的能量增量。對(duì)輸入向量c和音素樣板(音素p)之間的音素相似性的計(jì)算如下Lp=ap·c-bpap=2∑-1·μpbp=μp.∑-1·μp,其中μp是音素p的平均向量,并且∑表示協(xié)方差矩陣。在獲得靜態(tài)音素相似性之后,應(yīng)用50毫秒以上的靜態(tài)協(xié)方差矩陣計(jì)算出音素相似性的回歸系數(shù)。作為由少許說話者的話音獲得的作為輔音和元音的分-字單元的鏈接產(chǎn)生字樣板。具體地說,在相似性計(jì)算部分中,包括有音素樣板,該音素樣板由漢語的聲母部分和韻母部分構(gòu)成。漢語的音節(jié)具有聲母和韻母,聲母部分存儲(chǔ)有聲母的正文表示并且韻母部分存儲(chǔ)有韻母的正文表示。共有409種分-字單元。在圖11、12、13和14中示出基本漢語語音音標(biāo)。據(jù)此,通過對(duì)s(i,j)的計(jì)算獲得相似性參數(shù),s(i,j)是計(jì)算局部相似性(s515)的打分函數(shù),s(i,j)=wdi·ej|di|·|ej|+(1-w)Δdi·Δej|Δdi|·|Δej|]]>其中di表示輸入的第i個(gè)幀中的相似性向量,ei表示基準(zhǔn)的第j個(gè)幀的相似性向量,并且△di和△ei分別是回歸系數(shù)向量,并且’w’是根據(jù)相似性向量和根據(jù)其回歸系數(shù)向量打分的混合比。相似性的軌道是回歸系數(shù),所述回歸系數(shù)系對(duì)每個(gè)分-字單元的平均數(shù)并存儲(chǔ)在分-字詞典中。本設(shè)備的主要發(fā)明點(diǎn)是,當(dāng)話音模式輸入到受話器中時(shí),計(jì)算出作為特征參數(shù)的相似性向量的時(shí)間順序和每個(gè)幀的回歸系數(shù)向量。圖10示出識(shí)別部分。利用動(dòng)態(tài)編程(DP)匹配對(duì)輸入話音的特征參數(shù)的時(shí)間順序與詞典中的基準(zhǔn)進(jìn)行比較并且選出最相似的字作為識(shí)別結(jié)果。在該部分中,應(yīng)用了最廣泛采用的被稱作動(dòng)態(tài)時(shí)間Warp編譯(DTW)用于本發(fā)明的字樣板識(shí)別處理。DTW基本上是特征-匹配方案,該方案通過DP過程可固有地實(shí)現(xiàn)基準(zhǔn)集與試驗(yàn)特征的“時(shí)間對(duì)齊”。時(shí)間對(duì)齊系指試驗(yàn)的話音的時(shí)間區(qū)與基準(zhǔn)話音的相應(yīng)的區(qū)的匹配的過程。不僅因?yàn)橥ǔO嗤值牟煌陌l(fā)音由不同的時(shí)間構(gòu)成,而且由于字內(nèi)的音素由跨接在發(fā)音上的不同的時(shí)間構(gòu)成,所以需要此時(shí)間對(duì)齊。在圖10的第三個(gè)框內(nèi)(S615)示出用字樣板算法進(jìn)行字匹配的如下的動(dòng)態(tài)編程D=Σk=1KdN(ik,jk),]]>t(ik)與r(jk)匹配,其中k=1,2,……,K通路為(ik,jk),其中k=1,2……,K累積的距離例如為g(i,j)g(i,j)=max[g(i-1,j-1)+s(i,j)g(i-1,j-2)+s(i,j-1)+s(i,j)g(i-2,j-1)+s(i,j)]]]>圖15分別示出與i和j搜索網(wǎng)格的坐標(biāo)相關(guān)的試驗(yàn)和基準(zhǔn)特征向量。通過用由10位男性和10位女性,共20個(gè)人說的212個(gè)字集對(duì)本發(fā)明的用于漢語話音識(shí)別的設(shè)備的漢語音素樣板進(jìn)行訓(xùn)練。所述樣板的訓(xùn)練是在作為時(shí)元的有特色的幀上根據(jù)時(shí)間-譜模式進(jìn)行的。例如元音的時(shí)元在時(shí)間的中間并且不發(fā)音的輔音的時(shí)元在時(shí)間的結(jié)束處。在根據(jù)圖16中的包括臺(tái)灣的106個(gè)城市名稱的實(shí)驗(yàn)結(jié)果中,下表示出傳統(tǒng)的LPC的對(duì)數(shù)倒頻譜系數(shù)的識(shí)別率的準(zhǔn)確度。<tablesid="table1"num="001"><table>特征參數(shù)的差異32位8位6位4位LPC對(duì)數(shù)倒頻譜系數(shù)識(shí)別率(%)84.374.165.064.9</table></tables>另一方面,根據(jù)圖16的相同的實(shí)驗(yàn)數(shù)據(jù),本發(fā)明的實(shí)驗(yàn)結(jié)果表明,采用本發(fā)明的算法可以大大提高設(shè)備的準(zhǔn)確度。<tablesid="table2"num="002"><table>特征參數(shù)的差異32位8位6位4位LPC對(duì)數(shù)倒頻譜系數(shù)識(shí)別率(%)97.597.597.597.3</table></tables>很明顯,根據(jù)上述兩個(gè)表格,本發(fā)明的識(shí)別率大大高于傳統(tǒng)設(shè)備的識(shí)別率。另外,甚至在采用4比特取樣獲得提取參數(shù)時(shí),本發(fā)明的設(shè)備也能實(shí)現(xiàn)較高的準(zhǔn)確度。在差不多所有傳統(tǒng)的手段中,都用32比特進(jìn)行參數(shù)提取(4字節(jié))進(jìn)行特征表示。但在本發(fā)明的設(shè)備中僅用4比特即可提取參數(shù),而且準(zhǔn)確度很高。盡管在上面結(jié)合本發(fā)明的優(yōu)選實(shí)施例并對(duì)照附圖對(duì)本發(fā)明作了說明,但要指出的是,任何變化和變動(dòng)對(duì)本領(lǐng)域的專業(yè)人員都是顯而易見的。這類變化和變動(dòng)應(yīng)被視為在本發(fā)明的范圍內(nèi)。權(quán)利要求1.一種漢語普通話話音識(shí)別方法,包括如下步驟根據(jù)聲母部分訓(xùn)練音素相似性向量(PSV)模型,建立一具有訓(xùn)練出的聲母部分模型參數(shù)的聲母部分模型;根據(jù)韻母部分訓(xùn)練音素相似性向量,建立一具有訓(xùn)練出的韻母部分模型參數(shù)的韻母部分模型;訓(xùn)練話音音節(jié)音素相似性向量,采用作為音節(jié)模型的啟始參數(shù)的訓(xùn)練出的聲母部分參數(shù)值和訓(xùn)練出的韻母部分參數(shù)值建立音節(jié)模型;采用音節(jié)模型對(duì)目標(biāo)話音取樣進(jìn)行操作;根據(jù)目標(biāo)話音取樣與音節(jié)模型的符合度對(duì)作為目標(biāo)話音音節(jié)的目標(biāo)話音取樣進(jìn)行識(shí)別;和對(duì)作為與目標(biāo)話音音節(jié)一致的漢字的目標(biāo)話音取樣加以表示。2.按照權(quán)利要求1所述的漢語普通話話音識(shí)別方法,另外還包括如下步驟根據(jù)通用的上下文關(guān)系的漢字順序訓(xùn)練動(dòng)態(tài)時(shí)間Warp編譯器,建立漢語模型;采用漢語模型對(duì)目標(biāo)音節(jié)取樣中的目標(biāo)話音音節(jié)順序進(jìn)行操作;對(duì)作為與漢語模型相符的目標(biāo)話音音節(jié)順序一致的漢字順序的目標(biāo)話音取樣進(jìn)行表示;和對(duì)作為與目標(biāo)話音音節(jié)相符的順序一致的漢字順序的目標(biāo)話音取樣進(jìn)行表示。3.一種漢語普通話話音識(shí)別設(shè)備,包括一個(gè)話音信號(hào)濾波器,用于接收話音信號(hào)和產(chǎn)生經(jīng)濾波的模擬信號(hào);一個(gè)模/數(shù)(A/D)轉(zhuǎn)換器,用于將話音信號(hào)轉(zhuǎn)換成數(shù)字話音信號(hào);一個(gè)計(jì)算機(jī),該計(jì)算機(jī)與A/D轉(zhuǎn)換器連接,用于接收和處理數(shù)字信號(hào);一個(gè)音調(diào)鑒頻器,該鑒頻器與計(jì)算機(jī)連接,用于對(duì)話音信號(hào)的音調(diào)頻率特征進(jìn)行檢測,從而實(shí)現(xiàn)對(duì)話音信號(hào)的聲音進(jìn)行識(shí)別;一個(gè)話音信號(hào)預(yù)處理器,該處理器與計(jì)算機(jī)連接,用于對(duì)話音信號(hào)的音節(jié)的結(jié)束點(diǎn)進(jìn)行檢測,從而實(shí)現(xiàn)對(duì)音節(jié)的開始和結(jié)束的確定;和一個(gè)訓(xùn)練部分,該部分與計(jì)算機(jī)連接,用于對(duì)聲母部分音素相似性向量(PSV)模型和韻母部分音素相似性向量(PSV)模型進(jìn)行訓(xùn)練并用于根據(jù)聲母部分音素相似性向量(PSV)模型和韻母部分音素相似性向量(PSV)模型的訓(xùn)練出的參數(shù)對(duì)音節(jié)模型進(jìn)行訓(xùn)練。全文摘要本發(fā)明涉及一種采用聲母/韻母音素相似性向量對(duì)漢語普通話話音識(shí)別的設(shè)備,該設(shè)備可提高漢語話音識(shí)別準(zhǔn)確度并降低所需的存儲(chǔ)的規(guī)模。一種漢語普通話識(shí)別設(shè)備包括一話音信號(hào)濾波器、一模/數(shù)轉(zhuǎn)換器、一計(jì)算機(jī)、一音調(diào)鑒頻器、一話音信號(hào)預(yù)處理器和一訓(xùn)練部分。文檔編號(hào)G10L15/00GK1300049SQ0013452公開日2001年6月20日申請(qǐng)日期2000年12月11日優(yōu)先權(quán)日1999年12月10日發(fā)明者楊中和申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社