亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

頻率軸伸縮系數(shù)估計設(shè)備、系統(tǒng)方法以及程序的制作方法

文檔序號:2831833閱讀:303來源:國知局
專利名稱:頻率軸伸縮系數(shù)估計設(shè)備、系統(tǒng)方法以及程序的制作方法
技術(shù)領(lǐng)域
本身請主張在先日本專利申請第2007-247572號(2007年9月25日申請)的優(yōu) 選權(quán),所述在先申請的全部記載內(nèi)容以引用的方式合并在本申請文件中。本發(fā)明涉及語音處理技術(shù),尤其涉及用于對以語音在頻率軸上的伸縮表示的說話 人特性進行歸一化的伸縮系數(shù)估計設(shè)備、倒譜變換系統(tǒng)、語音識別系統(tǒng)、波形合成系統(tǒng)、方 法以及程序。
背景技術(shù)
在語音識別領(lǐng)域中,為了提高識別性能的精度,提出了修正由說話人的聲道長度 的差異引起的聲譜的共振頻率的波動的方法。這種技術(shù)被稱作聲道長度歸一化。作為聲道 長度歸一化的方法,例如,在專利文件1(日本專利公告公報3632529號)中,利用倒譜空間 上的線性變換將共振頻率的偏差模型化,由此有效地估計了偏差的大小。專利文件1中提出的聲道長度歸一化的構(gòu)成包括由分析語音并輸出倒譜的分析 部、基于倒譜估計表示伸縮程度的伸縮系數(shù)值的伸縮估計部、以及利用伸縮系數(shù)的值對倒 譜進行線性變換的變換部。變換部中使用的線性變換利用了通過利用全通濾波器的逆變換來將頻率軸上的 變換表示為倒譜的線性變換的方式。在該變換中使用的參數(shù)的個數(shù)為1。專利文件1在伸縮系數(shù)的估計中使用了在語言識別中使用的HMM(Hidden Markov Model,隱式馬爾可夫模型)。如在專利文件1中也記載的那樣,在語言識別中使用的HMM是 將以單詞或音素等為單位的音韻信息的輸出概率模型化的模型。例如,將日語“U 0”分解成音素,作為“h a i”,并將這些每個h,a,i的出現(xiàn)概率 模型化。如果例舉作為經(jīng)常使用的出現(xiàn)概率形式的正態(tài)分布,則此時,對每個音素事先計算 倒譜等特征量的值的平均和方差,并在進行識別等時使用。在專利文件1中,為了估計伸縮 系數(shù),使用下式(1)。
"力 Σ ^mt—",處講 _ …啡}
「 ,;=1 i=lm=l^nv,、a =---f~~7---)71~"( 1 )
ΣΣ/,ω
J=I t=lm-l其中,J、j表示音素或狀態(tài)的個數(shù)以及用于標別音素或狀態(tài)的ID,t表示時刻,M、 m表示倒譜的維數(shù)和維,Cfflt表示t時刻的第m維的倒譜系數(shù),μ fflJ, σ mJ表示音素j、第m維 的HMM中的平均向量和標準偏差的值。擋利用上式來估計伸縮系數(shù)的值時,需要用于標識平均向量或方差的信息。用于標識的ID信息可通過提供例如描述語音內(nèi)容的單詞信息等來計算。S卩,在上 述例子的情況下,當提供日語“U 時,可以確定“h ai”這樣的音素序列信息,并能夠展 開成h,a, i各自的狀態(tài)序列,還能夠確定屬于狀態(tài)的概率分布。
專利文件1 日本專利公告公報第3632529號;非專利文件1 =HTKBook Ver. 3. 3、第35 40頁、第54 64頁、第127 130頁。
發(fā)明內(nèi)容

將上述的專利文件1、非專利文件1的全部公開內(nèi)容以引用的方式合并在本申請 文件中。以下,分析本發(fā)明的相關(guān)技術(shù)。作為獲取音素序列等的方法,在預先知道發(fā)聲內(nèi)容的情況下可人工提供音素信 肩、ο另一方面,在談話等事先無法知道說話的內(nèi)容的情況下,通過人工提供音素信息 需要很大成本,不現(xiàn)實。此時,多數(shù)采用暫時通過語音識別來自動獲取的方法。然而,語音識別的處理需要較大的運算量,因此在有限的運算量中需要避免僅僅 為了生成用于估計的音素序列信息而進行上述計算的情形。另外,從語音識別所獲取的音素序列信息包含有錯誤,因此無法避免估計精度的 劣化。因此,本發(fā)明的目的在于,提供能夠以少的運算量執(zhí)行當進行聲道長度歸一化處 理時的伸縮系數(shù)的估計的伸縮系數(shù)估計設(shè)備、具有該設(shè)備的倒譜變換系統(tǒng)、語音識別系統(tǒng)、 波形合成系統(tǒng)、方法以及程序。本發(fā)明的其他目的在于,提供能夠提高表示聲道長度的差異的伸縮系數(shù)的估計精 度的伸縮系數(shù)估計設(shè)備、具有該設(shè)備的倒譜變換系統(tǒng)、語音識別系統(tǒng)、波形合成系統(tǒng)、方法 以及程序。本申請公開的發(fā)明為了解決上述問題,大致具有以下構(gòu)成。根據(jù)本發(fā)明的第一方面,提供一種伸縮系數(shù)估計設(shè)備,包括標簽信息生成裝置, 其輸出語音/非語音的標簽信息;伸縮模型存儲裝置,其存儲表示語音/非語音的出現(xiàn)概率 的概率模型;伸縮估計裝置,其利用表示語音/非語音的出現(xiàn)概率的概率模型、語音/非語 音的標簽、以及倒譜,來計算頻率軸方向上的伸縮系數(shù)。根據(jù)本發(fā)明的另一方面,提供一種倒譜變換系統(tǒng),包括所述伸縮系數(shù)估計設(shè)備; 以及使用伸縮系數(shù)來進行倒譜變換的變換裝置。根據(jù)本發(fā)明的又一方面,提供一種語音識別系統(tǒng),包括所述倒譜變換系統(tǒng);聲學 模型存儲裝置,其存儲表示音素單位等音韻信息的出現(xiàn)概率的概率模型;以及語音識別裝 置,其利用變換后的倒譜、以及表示音素單位等音韻信息的出現(xiàn)概率的概率模型來進行語 音識別。根據(jù)本發(fā)明的再一方面,提供一種波形合成系統(tǒng),其包括利用通過所述倒譜變換 系統(tǒng)變換后的倒譜來合成波形的波形合成裝置。在本發(fā)明的再一方面中,也可以如下構(gòu)成所述伸縮模型存儲裝置具有多個表示 語音/非語音的出現(xiàn)概率的概率模型,所述伸縮估計裝置計算以下次數(shù)的伸縮系數(shù),所述 次數(shù)等于存儲在所述伸縮模型存儲裝置中的模型個數(shù),并且,所述語音識別系統(tǒng)還包括伸縮系數(shù)決定裝置,其從所述伸縮估計裝置所求出的 伸縮系數(shù)中決定伸縮系數(shù),并輸出該伸縮系數(shù)和與該伸縮系數(shù)對應(yīng)的模型信息;以及聲學 模型切換裝置,其基于所述模型信息來選擇存儲在所述聲學模型存儲裝置中的聲學模型,并將所選聲學模型提供給聲學識別裝置,并且,所述變換裝置利用由所述伸縮系數(shù)決定裝置決定的伸縮系數(shù)來進行倒譜變換。根據(jù)本發(fā)明,提供一種伸縮系數(shù)估計方法,其中在存儲裝置中準備表示語音/非語音的出現(xiàn)概率的概率模型,并且,所述伸縮系數(shù)估計方法包括以下步驟輸出語音/非語音的標簽信息;以及利用所述表示語音/非語音的出現(xiàn)概率的概率模型、所述語音/非語音的標簽、以 及倒譜來計算頻率軸方向的伸縮系數(shù)。根據(jù)本發(fā)明,提供一種倒譜變換方法,其包括利用通過所述伸縮系數(shù)估計方法求 出的所述伸縮系數(shù)來進行倒譜變換的步驟。根據(jù)本發(fā)明,提供一種語音識別方法,其包括利用通過所述倒譜變換方法變換后 的所述倒譜、以及表示音韻信息的出現(xiàn)概率的概率模型來進行語音識別的步驟。根據(jù)本發(fā)明,提供一種波形合成方法,其包括利用通過倒譜變換方法變換后的所 述倒譜來合成波形的步驟。根據(jù)本發(fā)明,提供一種伸縮估計程序,其使計算機執(zhí)行以下處理在存儲裝置中準 備表示語音/非語音的出現(xiàn)概率的概率模型;輸出語音/非語音的標簽信息;以及利用所 述表示語音/非語音的出現(xiàn)概率的概率模型、所述語音/非語音的標簽、以及倒譜來計算頻 率軸方向上的伸縮系數(shù)。根據(jù)本發(fā)明,提供一種倒譜變換程序,其使計算機執(zhí)行以下處理利用通過所述伸 縮系數(shù)估計程序求出的所述伸縮系數(shù)來進行倒譜變換。根據(jù)本發(fā)明,提供一種語音識別程序,其使計算機執(zhí)行以下處理利用通過所述 倒譜變換程序變換后的所述倒譜、以及表示音韻信息的出現(xiàn)概率的概率模型來進行語音識 別。根據(jù)本發(fā)明,提供一種波形合成程序,其使計算機執(zhí)行以下處理利用通過倒譜變 換程序變換后的所述倒譜來合成波形。發(fā)明效果根據(jù)本發(fā)明,通過使用以使其表示說話人的全局信息的方式被設(shè)計的HMM、即歸納 到語音和非語音兩個級別的概率模型,能夠以少的運算量執(zhí)行當進行聲道長度歸一化處理 時的伸縮系數(shù)的估計。根據(jù)本發(fā)明,能夠提高表示聲道長度的差異的伸縮系數(shù)的估計精度。


圖1是示出本發(fā)明第一實施例的構(gòu)成的框圖;圖2是示出本發(fā)明第一實施例的動作的流程圖;圖3是示出本發(fā)明第二實施例的構(gòu)成的框圖;圖4是示出本發(fā)明第二實施例的動作的流程圖。標號說明101分析裝置102變換裝置
103伸縮估計裝置104標簽信息生成裝置105伸縮模型存儲裝置106語音識別裝置107聲學模型存儲裝置201伸縮系數(shù)決定裝置202聲學模型切換裝置
具體實施例方式本發(fā)明包括輸出語音/非語音的標簽信息的標簽信息生成裝置(104);存儲表示 語音/非語音的出現(xiàn)概率的概率模型的伸縮模型存儲裝置(107);利用表示語音/非語音 的出現(xiàn)概率的概率模型、語音/非語音的標簽、以及倒譜來計算頻率軸方向上的伸縮系數(shù) 的伸縮估計裝置(103)。本發(fā)明在用于抑制由于估計說話人的聲道長度的差異而產(chǎn)生的共振峰頻率的波 動的、頻率軸上的伸縮函數(shù)的伸縮系數(shù)的估計中,通過使用以使其表示說話人的全局信息 的方式被設(shè)計的HMM、即歸納到語音和非語音兩個級別的概率模型,可以以少的運算量估計 伸縮系數(shù)。在本發(fā)明中,通過歸納到語音/非語音兩個級別,不需要在估計中使用不確定的 音素信息。根據(jù)本發(fā)明,語音/非語音的音素信息不需要事先進行語音識別等處理,因此不 需要運算量。在估計作為說話人的全局信息的聲道長度的差異時,以語音和非語音這樣的大的 單位進行估計的做法好于按音素單位精細地比較其差異的做法。另外,所提供的音素信息 等也一樣越精細就越容易包含錯誤,與此相對,歸類為語音和非語音時不會出錯,因此可高 精度地進行估計而不受所提供的音素信息的影響。因此,與使用現(xiàn)有方法的情況相比能夠高精度地估計表示聲道長度的差異的伸縮 系數(shù)。以下,利用實施例進行詳細說明。實施例圖1是示出本發(fā)明一個實施例的構(gòu)成的圖。下面,對用于語音識別中的特征量變 換裝置進行說明。參考圖1可知,本實施例包括分析裝置101、變換裝置102、伸縮估計裝 置103、標簽信息生成裝置104、伸縮模型存儲裝置105、語音識別裝置106、聲學模型存儲裝 置 107。雖然不進行特別限定,但分析裝置101輸出如下求出的mel倒譜,即例如從采樣 頻率為44. 1kHz、并以一個樣本對應(yīng)16位的方式進行了 A/D轉(zhuǎn)換的輸入語音信號中截出10 毫秒(msec)左右的固定區(qū)間,對該固定區(qū)間進行預加重(preemphasis)處理、FFT(快速傅 立葉變換)處理、濾波器組(filter bank)處理,然后通過進行余弦變換來計算出該mel倒
■i並 曰O聲學模型存儲裝置107中存儲有通過將考慮了前后音素上下文的三音子 (Triphone)作為音素的HMM等來表述的聲學模型,這種聲學模型例如被記載在劍橋大學發(fā) 表的非專利文件1 (HTKBook Ver. 3. 3的第35 40頁)中。
伸縮模型存儲裝置105使用只表示語音/非語音兩個級別的HMM。將該HMM稱作 GMM(Gaussian Mixture Model,高斯混合模型),以與存儲在聲學模型存儲裝置107中的 HMM進行區(qū)別。相對于HMM使用考慮了音素上下文的三音子等作為音素,GMM根據(jù)針對每個說話 人來利用頻率軸上的伸縮進行修正的聲道長度歸一化的特征,只保持兩個級別,而并不使 用以精細的音素級別構(gòu)建模型的HMM。對GMM的學習進行說明。首先,使用上述的倒譜、如非專利文件1 (第54 64頁) 中所記載的功率差或前后時刻差,作為語音的聲學特征。使用標簽數(shù)據(jù)來計算前向/后向概率,由此將特征和標簽數(shù)據(jù)對應(yīng)起來,其中標 簽數(shù)據(jù)利用聲學特征和與其對應(yīng)的寫入文本而得。在本實施例中,使用“sil voice sil”這樣的兩個級別的標簽信息。其中,“sil” 表示非語音,"voice"表示語音。利用相對應(yīng)的特征量和標簽數(shù)據(jù)來計算表示每個對應(yīng)的標簽的特征量分布的參數(shù)。表示分布的函數(shù)多采用正態(tài)分布。此時,參數(shù)是平均值和方差。考慮到此后的使用了 HMM的語音識別,用于GMM學習的語音最好使用用于HMM學 習的語音數(shù)據(jù)。標簽信息生成裝置104與學習時同樣地生成并輸出“si 1 voice sil”的標簽數(shù)據(jù)。此時,通過根據(jù)語音長度來改變vioce標簽數(shù),能夠更加正確地進行對應(yīng)。當語音 數(shù)據(jù)長時,可推測出具有更多的語音區(qū)間,因此根據(jù)語音數(shù)據(jù)的長度來增加voice標簽數(shù), 由此可獲得減少發(fā)生不必要的遷移的概率的效果。伸縮估計裝置103利用上式(1)來計算表示頻率軸上的伸縮的參數(shù)值。上式(1)中的J表示級別數(shù),在本實施例中,該J為1。在式(1)中,T表示特征量的個數(shù)。在此情況下,該T是將語音長度以進行截取的 時間單位進行分割的情況下的個數(shù)。Yt(J)表示t時刻的語音級別的優(yōu)勢度(占有度數(shù))。該值可通過上述的前向/ 后向算法來計算。作為倒譜系數(shù)的維數(shù)的Cmt是t時刻的第m維倒譜系數(shù)的值。μ fflJ表示語音級別的第m維平均向量、σ w表示語音級別的第m維標準偏差。伸縮系數(shù)α與專利文件1中所述的一樣是表示頻率軸的伸縮程度的變形參數(shù),其 值由伸縮估計裝置103計算。變換裝置102使用由伸縮估計裝置103算出的伸縮系數(shù)α來變換倒譜,并輸出變 換后的倒譜。倒譜的變換與專利文件1同樣地通過下式(2)進行。
<formula>formula see original document page 9</formula>其中,標上"的c表示變換后的倒譜。
語音識別裝置106將通過變換裝置102變換的倒譜作為特征量并利用HMM進行識 別。作為本實施例的變形,也可以構(gòu)成為具有波形合成裝置,該波形合成裝置利用通 過變換裝置102變換的倒譜來進行波形的合成。即,該伸縮估計裝置103也能夠應(yīng)用于語 音合成裝置。當然,分析裝置101、變換裝置102、伸縮估計裝置103、語音識別裝置106也可以通 過由計算機(處理器、或者數(shù)字信號處理器)執(zhí)行的程序來實現(xiàn)其功能。圖2是用于說明本發(fā)明第一實施例的處理的流程圖。參考圖1和圖2,詳細說明本 發(fā)明第一實施例的整體動作。首先,輸入語音數(shù)據(jù)信號(圖2的步驟A101),通過分析裝置 101計算mel倒譜(步驟A102)。伸縮估計裝置103利用從分析裝置101輸出的mel倒譜、伸縮模型存儲裝置105 的GMM(A104)、以及來自標簽信息生成裝置104的語音/非語音的標簽信息(A105)來計算 伸縮參數(shù)(步驟A103)。變換裝置102利用上式(2)中的任一變換函數(shù)并使用伸縮系數(shù)α來變換倒譜并 輸出變換后的倒譜(步驟Α106)。語音識別裝置106將通過變換裝置102變換的倒譜作為特征量并利用聲學模型存 儲裝置107的HMM進行識別(步驟Α107)。圖3是示出本發(fā)明第二實施利的構(gòu)成的圖。本實施例在上述的第一實施例的基礎(chǔ) 上還具備伸縮系數(shù)決定裝置201和聲學模型切換裝置202。伸縮模型存儲裝置105存儲多個與在上述第一實施例中進行說明的GMM相同的模 型。其中,多個是指所學習的語音數(shù)據(jù)不同的多個GMM。例如,可以想到男性和女性這兩個 GMM的情況、或者按照每個說話人進行學習的GMM等。伸縮估計裝置103與所述第一實施例同樣地計算伸縮系數(shù)(變形參數(shù))α。在本實施例的情況下,伸縮估計裝置103的伸縮估計動作被重復多次,變形參數(shù) 被計算以下次數(shù),所述次數(shù)等于存儲在伸縮模型存儲裝置105中的GMM的個數(shù)。另外,為了 計算變形參數(shù)也多次計算前向/后向概率。伸縮系數(shù)決定裝置201選擇由伸縮估計裝置103算出的每個GMM的前向/后向概 率中最高的GMM,輸出GMM信息和變形參數(shù)α的值。GMM信息是指被選中的GMM的信息,例如在多個GMM為男性和女性的情況下,輸出 男性、女性中的任一個。另外,在GMM針對每個說話人的情況下,輸出說話人姓名。聲學模型切換裝置202 基于伸縮系數(shù)決定裝置201所輸出的GMM信息來選擇存儲在聲學模型存儲裝置107中的 ΗΜΜ,并輸出所選ΗΜΜ。圖4是用于說明第二實施例的處理的流程圖。參考圖3和圖4,詳細說明本發(fā)明第 二實施例的整體動作。首先,輸入語音數(shù)據(jù)信號(圖4的步驟Α201),由分析裝置101計算 mel倒譜(步驟A202)。 伸縮估計裝置103利用從分析裝置101輸出的模式(mel倒譜)、以及來自標簽信 息生成裝置104的語音/非語音標簽信息(A205),計算以下次數(shù)的伸縮參數(shù),所述次數(shù)等于 存儲在伸縮模型存儲裝置105中的GMM的個數(shù)(A204)(步驟A203)。
伸縮系數(shù)決定裝置201輸出所選GMM的信息和伸縮系數(shù)(變形參數(shù))α的值(步 驟 Α206)。變換裝置102利用上式(2)的任一變換函數(shù)并使用伸縮系數(shù)α來變換倒譜并輸出變換后的倒譜(步驟Α207)。聲學模型切換裝置202基于伸縮系數(shù)決定裝置201所輸出的GMM信息,選擇存儲 在聲學模型存儲裝置107中的HMM并輸出所選HMM(步驟Α208)。語音識別裝置106將通過變換裝置102變換的倒譜作為特征量并利用聲學模型存 儲裝置107的HMM來進行識別(步驟Α209)。根據(jù)本實施例,通過如上構(gòu)成,能夠同時進行面向特定說話人的模型的選擇和變 形參數(shù)的估計。作為本實施例的變形,也可以構(gòu)成為具有波形合成裝置,該波形合成裝置利用通 過變換裝置102變換的倒譜來進行波形的合成。即,伸縮估計裝置103也可以應(yīng)用于語音 合成裝置。當然,在本實施例中,分析裝置101、變換裝置102、伸縮估計裝置103、語音識別裝 置106、伸縮系數(shù)決定裝置201、聲學模型切換裝置202也可以通過由計算機(處理器、或者 數(shù)字信號處理器)執(zhí)行的程序來實現(xiàn)其功能。根據(jù)本發(fā)明,也可以應(yīng)用于進行語音識別的語音識別裝置、用于在計算機中實現(xiàn) 語音識別裝置的程序。在本發(fā)明的全部公開內(nèi)容(包括權(quán)利要求書)的范圍內(nèi),并基于其基本技術(shù)構(gòu)思, 可對實施方式乃至實施例進行變更/調(diào)整。另外,也可以在本發(fā)明的權(quán)利要求書的范圍內(nèi) 對各種公開構(gòu)成要素進行多種組合以及選擇。即,本發(fā)明顯然包括本領(lǐng)域的普通技術(shù)人員 根據(jù)包含權(quán)利要求書在內(nèi)的全部公開內(nèi)容以及技術(shù)構(gòu)思能夠得到的各種變形和修正。
權(quán)利要求
一種伸縮系數(shù)估計設(shè)備,其特征在于,包括標簽信息生成裝置,其輸出語音/非語音的標簽信息;伸縮模型存儲裝置,其存儲表示語音/非語音的出現(xiàn)概率的概率模型;伸縮估計裝置,其利用所述表示語音/非語音的出現(xiàn)概率的概率模型、所述語音/非語音的標簽、以及倒譜,來計算頻率軸方向上的伸縮系數(shù)。
2.一種倒譜變換系統(tǒng),其特征在于,包括 權(quán)利要求1所述的伸縮系數(shù)估計設(shè)備;以及變換裝置,其使用由所述伸縮系數(shù)估計設(shè)備求出的伸縮系數(shù)來進行倒譜變換。
3.如權(quán)利要求2所述的倒譜變換系統(tǒng),其特征在于,還包括分析裝置,該分析裝置將輸入語音信號截出預定區(qū)間,并對截出的預定區(qū)間實 施預定變換來導出倒譜,所述變換裝置利用來自所述伸縮估計裝置的伸縮系數(shù),對由所述分析裝置求出的倒譜 進行變換。
4.一種語音識別系統(tǒng),其特征在于,包括 權(quán)利要求2或3所述的倒譜變換系統(tǒng);聲學模型存儲裝置,其存儲表示音素單位等音韻信息的出現(xiàn)概率的概率模型;以及 語音識別裝置,其利用所述變換后的倒譜、以及存儲在所述聲學模型存儲裝置中的所 述表示音素單位等音韻信息的出現(xiàn)概率的概率模型來進行語音識別。
5.一種波形合成系統(tǒng),其特征在于,包括 權(quán)利要求2或3所述的倒譜變換系統(tǒng);以及 波形合成裝置,其利用所述變換后的倒譜來合成波形。
6.一種語音合成系統(tǒng),包括權(quán)利要求5所述的波形合成系統(tǒng)。
7.如權(quán)利要求4所述的語音識別系統(tǒng),其特征在于,所述伸縮模型存儲裝置具有多個表示語音/非語音的出現(xiàn)概率的概率模型, 所述伸縮估計裝置計算以下次數(shù)的伸縮系數(shù),所述次數(shù)等于存儲在所述伸縮模型存儲 裝置中的模型個數(shù),所述語音識別系統(tǒng)還包括伸縮系數(shù)決定裝置,其從所述伸縮估計裝置所求出的伸縮系數(shù)中決定伸縮系數(shù),并輸 出該伸縮系數(shù)和與該伸縮系數(shù)對應(yīng)的模型信息;以及聲學模型切換裝置,其基于所述模型信息來選擇存儲在所述聲學模型存儲裝置中的聲 學模型并將所選聲學模型提供給聲學識別裝置,所述變換裝置利用由所述伸縮系數(shù)決定裝置決定的伸縮系數(shù)來進行倒譜變換。
8.一種伸縮系數(shù)估計方法,其特征在于,在存儲裝置中準備表示語音/非語音的出現(xiàn)概率的概率模型, 并且,所述伸縮系數(shù)估計方法包括以下步驟 輸出語音/非語音的標簽信息;以及利用所述表示語音/非語音的出現(xiàn)概率的概率模型、所述語音/非語音的標簽、以及倒 譜來計算頻率軸方向上的伸縮系數(shù)。
9.一種倒譜變換方法,其特征在于,包括利用通過權(quán)利要求8所述的伸縮系數(shù)估計方法求出的所述伸縮系數(shù)來進行倒譜變換的步驟。
10.如權(quán)利要求9所述的倒譜變換方法,其特征在于,還包括分析步驟,該分析步驟將輸入語音信號截出預定區(qū)間,并對截出的預定區(qū)間實 施預定變換來導出倒譜,所述變換倒譜的步驟利用所述伸縮系數(shù)來對在所述分析步驟中求出的倒譜進行變換。
11.一種語音識別方法,其特征在于,包括利用通過權(quán)利要求9或10所述的倒譜變 換方法變換后的所述倒譜、以及表示音韻信息的出現(xiàn)概率的概率模型來進行語音識別的步 馬聚ο
12.—種波形合成方法,其特征在于,包括利用通過權(quán)利要求9或10的倒譜變換方法 變換后的所述倒譜來合成波形的步驟。
13.如權(quán)利要求11所述的語音識別方法,其特征在于,在存儲裝置中準備多個表示語音/非語音的出現(xiàn)概率的概率模型, 并且,所述語音識別方法包括以下步驟 計算與所述模型個數(shù)相等次數(shù)的伸縮系數(shù);從多個伸縮系數(shù)中決定伸縮系數(shù),并選擇與該伸縮系數(shù)對應(yīng)的模型信息; 利用所述決定的伸縮系數(shù)來進行倒譜變換;基于所選的模型信息來選擇聲學模型,并將所選聲學模型提供給語音識別。
14.一種伸縮估計程序,使計算機執(zhí)行以下處理在存儲裝置中準備表示語音/非語音的出現(xiàn)概率的概率模型; 輸出語音/非語音的標簽信息;利用所述表示語音/非語音的出現(xiàn)概率的概率模型、所述語音/非語音的標簽、以及倒 譜來計算頻率軸方向上的伸縮系數(shù)。
15.一種倒譜變換程序,使計算機執(zhí)行以下處理利用通過權(quán)利要求14所述的伸縮系數(shù)估計程序求出的所述伸縮系數(shù)來進行倒譜變換。
16.如權(quán)利要求15所述的倒譜變換程序,其特征在于,利用所述伸縮系數(shù)對通過分析處理求出的倒譜進行變換,其中,所述分析處理用于將 輸入語音信號截出預定區(qū)間,并對截出的預定區(qū)間實施預定變換來導出倒譜。
17.一種語音識別程序,使計算機執(zhí)行以下處理利用通過權(quán)利要求15或16所述的倒譜變換程序變換后的所述倒譜、以及表示音韻信 息的出現(xiàn)概率的概率模型來進行語音識別。
18.一種波形合成程序,使計算機執(zhí)行以下處理利用通過權(quán)利要求15或16的倒譜變換程序變換后的所述倒譜來合成波形。
19.如權(quán)利要求17所述的語音識別程序,其使所述計算機執(zhí)行以下處理 在存儲裝置中準備多個表示語音/非語音的出現(xiàn)概率的概率模型; 計算與所述模型個數(shù)相等次數(shù)的伸縮系數(shù);從多個伸縮系數(shù)中決定伸縮系數(shù),并選擇與該伸縮系數(shù)對應(yīng)的模型信息; 利用所述決定的伸縮系數(shù)來進行倒譜變換;基于所選的模型信息來選擇聲學模型,并將所選聲學模型提供給語音識別。
20.一種語音識別裝置,其特征在于,包括分析部,其將輸入語音信號截出預定區(qū)間,并對截出的預定區(qū)間實施變換來導出倒譜;標簽信息生成部,其輸出語音/非語音的標簽信息; 伸縮模型存儲部,其存儲表示語音/非語音的出現(xiàn)概率的概率模型; 伸縮估計部,其利用被存儲在所述伸縮模型存儲部中的所述表示語音/非語音的出現(xiàn) 概率的概率模型、從所述標簽信息生成部輸出的所述語音/非語音標簽信息、以及從所述 分析部輸出的倒譜,來計算頻率軸方向上的伸縮系數(shù);變換部,其使用由所述伸縮系數(shù)估計部求出的伸縮系數(shù)對從所述分析部輸出的倒譜進 行變換;以及聲學模型存儲部,其存儲表示音素單位等音韻信息的出現(xiàn)概率的概率模型;以及 語音識別部,其將經(jīng)所述變換部變換的倒譜作為特征量,并利用存儲在所述聲學模型 存儲部中的表示音素單位等音韻信息的出現(xiàn)概率的概率模型來進行語音識別。
21.如權(quán)利要求20所述的語音識別裝置,其特征在于,所述伸縮模型存儲部具有多個表示語音/非語音的出現(xiàn)概率的概率模型, 所述伸縮估計部計算以下次數(shù)的伸縮系數(shù),所述次數(shù)等于存儲在所述伸縮模型存儲裝 置中的模型個數(shù),所述語音識別裝置還包括伸縮系數(shù)決定部,其從所述伸縮估計部所求出的伸縮系數(shù)中決定伸縮系數(shù),并輸出該 伸縮系數(shù)和與該伸縮系數(shù)對應(yīng)的模型信息;以及聲學模型切換部,其基于所述模型信息,選擇存儲在所述聲學模型存儲部中的聲學模 型并將所選聲學模型提供給聲學識別部,所述變換部利用由所述伸縮系數(shù)決定部決定的伸縮系數(shù)來進行所述倒譜變換。
全文摘要
本發(fā)明提供抑制用于估計伸縮系數(shù)的成本并且估計高精度的值的伸縮系數(shù)估計系統(tǒng)。本發(fā)明包括輸出語音/非語音的標簽信息的標簽信息生成裝置104、存儲表示語音/非語音的出現(xiàn)概率的概率模型的伸縮模型存儲裝置105、利用表示語音/非語音的出現(xiàn)概率的概率模型、語音/非語音的標簽、以及倒譜來計算頻率軸方向的伸縮系數(shù)的伸縮估計裝置103。
文檔編號G10L13/02GK101809652SQ200880108790
公開日2010年8月18日 申請日期2008年9月22日 優(yōu)先權(quán)日2007年9月25日
發(fā)明者江森正 申請人:日本電氣株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1