專利名稱:增益控制系統(tǒng)、增益控制方法和增益控制程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種不依賴于輸入信號的聲壓來使輸出信號的聲壓恒定 的增益控制系統(tǒng)、增益控制方法、增益控制程序、及使用該增益控制方法 的聲音識別系統(tǒng)、聲音識別方法、聲音識別程序。
背景技術(shù):
對本說明書中使用的術(shù)語定義如下。
所謂'聲壓',是指該聲音存在時的氣壓的上升量。單位為[N/m2]。 該量與聲音持有的能量的平方根、聲音波形的振幅值成正比。
所謂'聲壓水平',是指成為對象的聲音的聲壓與基準(zhǔn)聲壓之比的對 數(shù)值。單位為[dB]。具體而言,如下式(l)所示定義。
聲壓水平=20 1ogl0(成為對象的聲音的聲壓/基準(zhǔn)聲壓)…(1)
所謂'增益',是指輸出信號的聲壓與輸入信號的聲壓之比。具體而 言,如下式(2)所示定義。
增益^輸出信號的聲壓/輸入信號的聲壓…(2)
通常的聲音通信用或聲音錄音用中使用的增益控制裝置的目的在于, 將輸入信號變形為人容易聽到的聲壓后輸出。
與此相反,聲音識別用中使用的增益控制裝置的目的在于,使輸入信 號的聲壓與事先通過學(xué)習(xí)準(zhǔn)備的聲音模型的聲壓一致。
所謂聲音模型,如非專利文獻(xiàn)l中記載的那樣,將聲音頻譜變換為特 征量,用畫(Hidden Markov Model)或G應(yīng)(Gaussian Mixture Model)夷卩
樣的概率模型表示其出現(xiàn)概率。
圖9是表示專利文獻(xiàn)1中記載的、聲音通信用或聲音錄音用中使用的 增益控制裝置的構(gòu)成圖。在圖9的增益補(bǔ)正裝置中,具備輸入聲音信號的 輸入信號取得部1、僅使事先設(shè)定的彼此不同頻帶的信號通過的多個頻分 濾波器部件11、絕對值變換各個頻分濾波器部件11輸出的信號的絕對值
9變換部件12、存儲對由頻分濾波器部件11分割的每個頻帶進(jìn)行加權(quán)的數(shù) 據(jù)的加權(quán)數(shù)據(jù)存儲部件13、向絕對值變換后的值乘以加權(quán)數(shù)據(jù)的乘法部
14、將加權(quán)后的值相加的加法部15、補(bǔ)正相加后的值的增益補(bǔ)正部件16、 存儲與補(bǔ)正的值相比較的閾值水平數(shù)據(jù)的閾值水平存儲部件17、比較補(bǔ)正 后的值與閾值水平數(shù)據(jù)的比較部件18、利用比較部件18的比較結(jié)果來發(fā) 生增益值的增益發(fā)生部件19、使增益值的變動量變緩慢的拋物線發(fā)生部件 20、和將拋物線發(fā)生部件20輸出的增益值乘以輸入信號并補(bǔ)正聲壓水平 的聲壓補(bǔ)正部7。通過如此構(gòu)成,可對輸入信號是聲音的可能性高的每個 頻帶進(jìn)行加權(quán),根據(jù)加權(quán)后的信號來進(jìn)行增益控制。
但是,在圖9的構(gòu)成中,如圖10所示,未考慮每個音素的聲壓的差 異,而始終設(shè)為恒定的聲壓輸出,所以有可能輸出不自然的聲音。
例如,若是母音與子音,則認(rèn)為母音通常聲壓大,子音聲壓小,但在 圖9的構(gòu)成中,未考慮該差異,而設(shè)為恒定聲壓的輸出,所以變?yōu)檫^度強(qiáng) 調(diào)了子音的聲音。
這在使增益控制裝置與必需聲壓信息的聲音識別裝置組合后使用的 情況下成為大問題,導(dǎo)致識別性能的惡化。
并且,在噪聲的頻帶與構(gòu)成目的的聲音的頻帶重合的情況下,還存在 會強(qiáng)調(diào)噪聲的問題。
下面,說明聲音識別用中使用的增益控制裝置。在通常的聲音識別中, 為了頑強(qiáng)識別聲壓的變動,不使用依賴于聲壓的倒譜(少7 ^卜,^)的0 次分量或功率特征量等來進(jìn)行識別。
但是,在作為噪聲下的有效聲音識別方法而己知的、PMC(Parallel Model Combination)法等使聲音模型適應(yīng)于噪聲的方法中,必需依賴于聲 壓的倒譜的0次信息,所以必需增益控制法(非專利文獻(xiàn)2)。
圖11例示了作為根據(jù)純音響模型(純聲音模型)與噪聲模型來合成噪 聲適應(yīng)模型的方法一例的PMC法。
對事先以倒譜形式學(xué)習(xí)純聲音的聲音模型,通過實施逆余弦變換、指 數(shù)變換,變形為頻譜形式,得到純聲音頻譜。
對在發(fā)聲前的無聲區(qū)間等中學(xué)習(xí)的噪聲模型,通過實施逆余弦變換、 指數(shù)變換,變形為頻譜形式,得到噪聲頻譜。接著,對上述純聲音頻譜,乘以水平調(diào)整系數(shù)g(也稱為'水平補(bǔ)正系 數(shù)'),使之與上述噪聲頻譜一致,算出噪聲適應(yīng)聲音頻譜。
接著,通過對上述噪聲適應(yīng)頻譜實施對數(shù)變換、余弦變換,得到噪聲 適應(yīng)聲音模型。
當(dāng)識別時,通過比較對照輸入信號與噪聲適應(yīng)聲音模型,執(zhí)行識別。 在PMC法中,通過乘以水平補(bǔ)正系數(shù)g,調(diào)整聲音模型的聲壓與根據(jù)
輸入信號算出的噪聲模型的聲壓的混合比。
因此,可將乘以水平補(bǔ)正系數(shù)g考慮為一種增益控制。 在非專利文獻(xiàn)3或非專利文獻(xiàn)4中,根據(jù)似然最大化的方針來推定上
述水平調(diào)整系數(shù)g。 具體地,有
(A) 事先準(zhǔn)備多個聲壓的聲音模型,選擇似然變?yōu)樽畲蟮穆曇裟P偷?方法,或
(B) 將增益的值處理為變量,對構(gòu)成聲音模型的各高斯分布的每個重 復(fù)推定以使似然變?yōu)樽畲蟮姆椒ā?br>
在上述兩個方法中,由于根據(jù)學(xué)習(xí)時的聲音的聲壓,進(jìn)行增益控制, 所以可執(zhí)行反映了每個音素的聲壓差異的增益控制。
但是,在事先準(zhǔn)備多個聲壓的聲音模型的方法(A)中,為了執(zhí)行正確 的推定,必需對全部音素的每個準(zhǔn)備改變聲壓的多個聲音模型,在容量或 計算量方面,花費(fèi)成本多。
在將增益處理為變量重復(fù)推定的方法(B)中,通過執(zhí)行重復(fù)推定,存 在花費(fèi)多的計算量等問題、和若最初設(shè)定的增益值不同、則完全引入到不 同的音素中等問題。
專利文獻(xiàn)l:特開2004-15125號公報
非專利文獻(xiàn)1: Guorong Xuan, Wei Zhang, Peiqi Chai, "EM Algorithms of Gaussian Mixture Model and Hidden Markov Model" , IEEE International Conference on Image Processing ICIP 2001, vol.1, pp. 145-148. 2001年
非專利文獻(xiàn)2: M. J. F. Gales and S. J. Young, "Robust Continuous Speech Recognition Using Parallel Model Combination" , IEEE Trans.pp. 352-359. 1996年9月
非專禾!j文獻(xiàn)3: Y. Minami and S. Furui, "A Maximum Likelihood Procedure for a Universal Adaptation Method Based on H薩 Composition", IEEE ICASSP, 95, 129-132. 1995年
非專利文獻(xiàn)4:高田健司,外山淳,"使用自動適用于S/N比的H薩 合成法的單詞識別",電子信息通信學(xué)會技術(shù)研究報名,SP2002-97 pp.19-24 2002年
非專利文獻(xiàn)5: Richard 0. Duda, Petter E. Hart, David G. Stork 著,尾上守夫監(jiān)譯,"圖案辨別",Joh Willey &Sons.新技術(shù)通訊, 卯.528-529
非專禾(J文獻(xiàn)6: Steven F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction" , IEEE Trans. ASSP 27, pp. 113-120, 1979年
如上所述,現(xiàn)有系統(tǒng)具有下述記載的課題。
第一問題在于,在現(xiàn)有的聲音通信用或聲音錄音用中使用的增益控制 技術(shù)中,由于未考慮每個音素的聲壓差異,所以輸出不自然的聲音。
第二問題在于,在現(xiàn)有的聲音通信用或聲音錄音用中使用的增益控制 技術(shù)中,在噪聲的頻帶與構(gòu)成目的的聲音的頻帶重合的情況下,會強(qiáng)調(diào)噪 聲0
第三問題在于,在現(xiàn)有的基于聲音識別用中使用的似然最大化指針的 增益控制技術(shù)中,為了對聲音識別用而準(zhǔn)備的全部音素的每個準(zhǔn)備多個聲 壓的聲音模型、或?qū)σ羲氐拿總€執(zhí)行多次推定,在容量或計算量方面花費(fèi) 多的的成本。
第四問題在于,在現(xiàn)有的基于聲音識別用中使用的似然最大化指針的 增益控制技術(shù)中,若最初設(shè)定的增益值不同,則會引入到完全不同的音素 中。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于提供一種增益控制裝置、程序,通過反映每 個音素的聲壓差異,可輸出自然的聲音。本發(fā)明的另一目的在于提供一種不強(qiáng)調(diào)無用的噪聲、正確強(qiáng)調(diào)構(gòu)成目 的的聲音的增益控制裝置、程序。
本發(fā)明的再一目的在于以少的容量和計算成本提供一種增益控制裝 置、程序。
本發(fā)明的又一目的在于提供一種維持音素特征不變地執(zhí)行聲壓控制 的增益控制裝置、程序。
本申請公開的發(fā)明為了解決上述課題,大致如下構(gòu)成。
本發(fā)明的第l增益控制系統(tǒng)具備輸入信號取得部、特征量變換部、聲 音模型存儲部、聲壓比較部、距離算出部、增益值算出部件、和聲壓補(bǔ)正 部件。在上述聲音模型存儲部中,根據(jù)多個音素的每個或特征量的距離, 存儲按將聲音分割成簇的每個單位準(zhǔn)備的持有特征量與聲壓的聲音模型。
本發(fā)明的第1增益控制方法包含
輸入信號取得步驟,取得輸入信號,并按每個單位時間切分; 特征量變換步驟,根據(jù)上述按每個單位時間切分的輸入信號,算出特
聲音模型存儲步驟,按每個音素或?qū)⒙曇舴指畛纱氐拿總€單位,存儲 持有特征量與聲壓信息的聲音模型;
聲壓比較步驟,算出上述按每個單位時間切分的輸入信號與上述聲音 模型的每一個之間的聲壓之比;
距離算出步驟,算出上述按每個單位時間切分的輸入信號與上述聲音 模型的每一個之間的特征量的距離;
增益值算出步驟,通過對聲音模型加權(quán)平均上述聲壓的比,算出增益;
禾口
聲壓補(bǔ)正步驟,使用算出的增益,補(bǔ)正輸入信號的聲壓。 本發(fā)明的第1增益控制程序,執(zhí)行如下處理 取得輸入信號,并按每個單位時間切分; 將每個單位時間的輸入信號變換為特征量;
比較每個單位時間的輸入信號與聲音模型的每一個之間的聲壓;
算出每個單位時間的輸入信號與聲音模型的每一個之間的特征量的
距離;通過對多個聲音模型加權(quán)平均聲壓的比,算出增益;和 使用算出的增益值,補(bǔ)正輸入聲音的聲壓水平。
通過如此構(gòu)成,對音素或每個簇單位使用持有特征量與聲壓信息的聲 音模型,可反映每個音素的聲壓差異,實現(xiàn)第l目的。
另外,通過對音素或每個簇單位使用持有特征量與聲壓信息的聲音模 型,可不強(qiáng)調(diào)無用的噪聲,正確強(qiáng)調(diào)構(gòu)成目的的聲音,實現(xiàn)第2目的。
另外,通過對音素或每個簇單位準(zhǔn)備持有特征量與聲壓信息的聲音模 型,對多個音素模型,對輸入信號與聲音模型每個之間的聲壓的比執(zhí)行對 應(yīng)于距離的加權(quán)平均,從而算出增益,由此不必對全部音素的每個準(zhǔn)備聲 壓不同的多個模型、或不必執(zhí)行多次推定,所以可用少的容量和計算成本 實現(xiàn),實現(xiàn)第3目的。
另外,由于增益控制用聲音模型與聲音識別用聲音模型分別準(zhǔn)備,所 以可對應(yīng)于容量、計算量的制約來準(zhǔn)備適當(dāng)大小的聲音模型,實現(xiàn)第3目 的。
本發(fā)明的第2增益控制方法,是在第1增益控制方法中,代替在增益
值算出步驟中,對多個聲音模型,對上述聲壓的比執(zhí)行對應(yīng)于距離的加權(quán) 平均,從而算出增益值,而是
對多個聲音模型,考慮上述距離與音素或簇單位的出現(xiàn)頻度信息雙 方,對上述聲壓之比執(zhí)行加權(quán)平均,從而算出增益值。
通過如此構(gòu)成,可正確地推定音素的特征,實現(xiàn)第4目的。
本發(fā)明的第3增益控制方法是在第1增益控制方法中,包含-
根據(jù)輸入信號推定噪聲分量的步驟;和
根據(jù)輸入信號抑制上述噪聲分量并算出聲音信號的步驟,
對于第1增益控制方法中的特征量變換步驟,代替根據(jù)輸入信號算出
特征量,按照根據(jù)輸入信號抑制噪聲分量后的聲音信號,來算出特征量。 通過如此構(gòu)成,與第l增益控制方法相比,可進(jìn)一步不強(qiáng)調(diào)噪聲分量
地正確強(qiáng)調(diào)構(gòu)成目的的聲音。
本發(fā)明的第4增益控制方法,對于第3增益控制方法中的聲壓補(bǔ)正步
驟,
代替使用算出的增益來補(bǔ)正輸入信號的聲壓,而是使用算出的增益,來補(bǔ)正僅取得根據(jù)輸入信號抑制噪聲分量的純分量后的純聲音信號的聲 壓。
本發(fā)明的第5增益控制方法,代替第1增益控制方法中的聲壓補(bǔ)正步 驟,而包含根據(jù)算出的增益與輸入信號、來算出執(zhí)行了聲壓調(diào)整的特征量 的特征量變換步驟。
發(fā)明效果
本發(fā)明的第1效果在于,通過使用事先以規(guī)定聲壓的聲音學(xué)習(xí)的聲音 模型,可反映每個音素的聲壓差異。
本發(fā)明的第2效果在于,通過對每個音素或?qū)⒙曇舴指畛纱氐拿總€單 位使用聲音模型,可不強(qiáng)調(diào)無用的噪聲,正確強(qiáng)調(diào)構(gòu)成目的的聲音。
本發(fā)明的第3效果在于,由于通過在增益算出中、對每個音素或?qū)⒙?br>
音分割成簇的每個單位準(zhǔn)備的音素模型,執(zhí)行基于距離的加權(quán)平均,從而 不必對全部音素準(zhǔn)備聲壓不同的多個模型,或不必執(zhí)行多次推定,所以可 以少的容量和計算成本實現(xiàn)。
本發(fā)明的第4效果在于,通過在增益算出中、對向每個音素或?qū)⒙曇?br>
分割成簇的每個單位準(zhǔn)備的聲音模型執(zhí)行基于距離的加權(quán)平均,可維持音 素的特征不變地進(jìn)行聲壓控制。
圖1是表示本發(fā)明第1實施例的系統(tǒng)構(gòu)成圖。
圖2是表示本發(fā)明第1發(fā)明實施例的處理步驟的流程圖。
圖3是表示本發(fā)明第1實施例中的輸入聲壓與輸出聲壓的特性圖。
圖4是表示本發(fā)明第2實施例的系統(tǒng)構(gòu)成圖。
圖5是表示本發(fā)明第3實施例的系統(tǒng)構(gòu)成圖。
圖6是表示本發(fā)明第4實施例的系統(tǒng)構(gòu)成圖。
圖7是表示本發(fā)明第5實施例的系統(tǒng)構(gòu)成圖。
圖8是表示本發(fā)明第6實施例的系統(tǒng)構(gòu)成圖。
圖9是表示現(xiàn)有的增益控制系統(tǒng)噪聲抑制系統(tǒng)的構(gòu)成框圖。
圖10是表示現(xiàn)有的增益控制系統(tǒng)的輸入聲壓與輸出聲壓的特性圖。
圖11是表示現(xiàn)有的聲音模型與噪聲模型的合成法的圖。符號說明
1輸入信號取得部 2特征量變換部 3聲音模型存儲部 3' 聲音模型存儲部
3a聲音模型的聲壓值
3b聲音模型的特征量
3c聲音模型的出現(xiàn)頻度(事先概率)
4聲壓比較部
5距離算出部
6增益值算出部
6' 增益值算出部
7聲壓補(bǔ)正部
8噪聲推定部
9純聲音推定部
10第二特征量變換部件
11頻帶分割濾波部件
12絕對值變換部件
13加權(quán)數(shù)據(jù)存儲部件
14乘法部
15 加法部
16增益補(bǔ)正部件
17閾值水平存儲部件
18比較部件
19增益發(fā)生部件
20拋物線發(fā)生部件
具體實施例方式
下面,參照附圖來詳細(xì)說明實施本發(fā)明的最佳方式。本發(fā)明具備聲音 模型存儲部(3),以每個音素或簇單位存儲事先由規(guī)定聲壓的聲音而學(xué)習(xí)、且分別包含聲壓信息與特征量的聲音模型;按每個單位時間切出輸入信號 后分析并導(dǎo)出特征量的部件(2);和根據(jù)所述聲音模型存儲部中存儲的所
述聲音模型的特征量(y j)與所述輸入信號的特征量(C(t))的距離,算出 選擇各個聲音模型j的概率(P(jlC(t))),通過使用所述概率,對聲音模 型的每一個,加權(quán)所述輸入信號的特征量中依賴于聲壓的特征量和所述聲 音模型存儲部中存儲的所述聲音模型的聲壓信息之差"0, j-C(O, t)),來
算出增益(g)的部件(4、 5、 6),執(zhí)行使輸入信號的聲壓與事先通過學(xué)習(xí)而
準(zhǔn)備的聲音模型的音素或簇之每個的聲壓一致的控制。本發(fā)明是一種用于
調(diào)整并輸出輸入信號的聲壓的增益控制系統(tǒng),包含輸入信號取得部(l), 取得從輸入器件輸入的聲音信號,并按每個單位時間切出;特征量變換部 (2),根據(jù)所述按每個單位時間切出的輸入信號,算出特征量和聲壓;聲 音模型存儲部(3),按多個音素的每個或?qū)⒙曇舴指畛纱氐膯挝坏拿總€,
存儲持有特征量與聲壓(依賴于聲壓的特征量例如倒譜的0次分量)的信
息的聲音模型;距離算出部(5),算出所述按每個單位時間切出的輸入信 號的特征量與所述聲音模型存儲部中存儲的所述聲音模型的每一個的特 征量之間的距離;聲壓比較部(4),算出所述按每個單位時間切出的輸入 信號的聲壓(依賴于聲壓的特征量)與所述聲音模型存儲部中存儲的所述 聲音模型的每一個的聲壓之比;增益值算出部(6),根據(jù)對所述聲音模型 的每一個算出的距離和聲壓之比,算出增益;和聲壓補(bǔ)正部(7),使用由 所述增益值算出部算出的增益,補(bǔ)正按每個單位時間切出的輸入信號的聲 壓。
在本發(fā)明的其它實施方式中,聲音模型存儲部(圖4的3')還存儲保 持聲音模型的出現(xiàn)頻度信息,所述增益值算出部(6')根據(jù)對所述聲音模 型的每個算出的距離和聲壓之比、以及所述聲音模型存儲部中存儲的聲音 模型的每一個的出現(xiàn)頻度,算出增益。
在本發(fā)明中,所述增益值算出部使用按每個單位時間切出的輸入信號 與聲音模型之間的距離,對音素或?qū)⒙曇舴指畛纱氐膯挝唬訖?quán)平均每個 單位時間切出的輸入信號與聲音模型之間的聲壓之比,從而算出增益。
在本發(fā)明的其它實施方式中,具備噪聲推定部(圖5的8),根據(jù)所 述輸入信號取得噪聲分量;和純聲音推定部(圖5的9),根據(jù)所述輸入信
17號,算出將由所述噪聲推定部推定的噪聲分量抑制后的信號,并輸出抑制 了噪聲分量的信號,所述特征量變換部(2)輸入從所述純聲音推定部輸出 的、抑制了噪聲分量的信號,取出輸入的信號的特征量和聲壓。
在本發(fā)明的其它實施方式中,所述聲壓補(bǔ)正部(7)輸入從所述純聲音 推定部(9)輸出的、抑制了噪聲分量的信號,并補(bǔ)正聲壓。
在本發(fā)明的其它實施方式中,所述聲壓補(bǔ)正部(7)在多個所述單位時 間平滑化或平均化所述每個單位時間上求出的增益,在多個所述單位時間 控制聲壓。
在本發(fā)明的再一個實施方式中,代替所述聲壓補(bǔ)正部(7),具備第二 特征量變換部(圖7的IO),其根據(jù)所述增益值算出部算出的增益與所述輸
入信號,算出聲音識別中使用的特征量,使用由所述第二特征量變換部算 出的特征量來執(zhí)行聲音識別。
在本發(fā)明的又一實施方式中,代替所述聲壓補(bǔ)正部,具備第二特征量
變換部(圖8的10),其使用由所述增益值算出部算出的增益,補(bǔ)正由所述 特征量變換部求出的特征量,算出聲音識別中使用的特征量,使用由所述 第二特征量變換部算出的特征量來執(zhí)行聲音識別。下面,說明實施例。 〈實施例1〉
圖1是表示本發(fā)明第1實施例的構(gòu)成圖。參照圖1,本發(fā)明的第1實
施例具備取得輸入信號并按每個單位時間切出的輸入信號取得部1、根
據(jù)每個單位時間的輸入信號算出特征量與聲壓的特征量變換部2、存儲聲 音模型的聲音模型存儲部3、比較每個單位時間的輸入信號與上述聲音模 型的每個之間的聲壓并求出聲壓之比的聲壓比較部4、求出每個單位時間 的輸入信號與聲音模型的每個之間的特征量的距離的距離算出部5、根據(jù) 由聲壓比較部4算出的聲壓之比與由距離算出部算出的距離來算出增益的 增益值算出部6、和使用由增益值算出部6算出的增益來補(bǔ)正輸入信號的 聲壓的聲壓補(bǔ)正部7。
聲音模型存儲部3存儲對多個音素的每個或?qū)⒙曇舴指畛纱氐拿總€單 位所準(zhǔn)備的多個聲音模型。
這里,所謂'音素',是指母音或子音、無聲音或有聲音、或即便為 相同的音、也可利用前后音的排列等來分類聲音。另外,所謂'簇',是指將音素匯總和對應(yīng)于特征量的距離來分割聲
音
作為簇分割方法,例如可使用<K-means法'(非專利文獻(xiàn)5)。所謂 'K-means法,,是指對應(yīng)于距離將提供的數(shù)據(jù)分類成K個簇的方法。
聲音模型由聲壓3a與特征量3b構(gòu)成。作為聲壓3a,使用倒譜的0 次分量。作為特征量3b,既可使用將聲音變換為特征量后的值本身,也可 使用輸出該值的概率密度分布。
聲壓3a與特征量3b使用"Expectation Maximization" (EM)算法等 事先學(xué)習(xí)準(zhǔn)備(非專利文獻(xiàn)l)。另外,也可使用EM算法來決定簇。
下面,參照圖1和圖2的流程圖,來詳細(xì)說明本實施例的整體動作。
按每個單位時間周期加窗口切出輸入信號,用X(f, t)表示通過博立葉 解析算出的頻譜量。其中,f表示頻率方向的序號,t表示時間方向的序 號(幀序號)。
特征量變換部2根據(jù)輸入信號算出特征量。這里,用作特征量的是
.頻譜
.對數(shù)頻譜
.倒譜
.間距.功率
.其A(—階差分)量 .AA(二階差分量)等量。
在本實施例中,設(shè)倒譜為特征量。倒譜由式(3)算出(步驟S1)。
C (t) =DCT[log[X (t) ]] (3)
其中,X(t)是持有X(f,t)作為要素的矢量。
C (t)是持有C (i, t)作為要素的矢量(其中,i表示倒譜維度)。
DCT []表示離散余弦變換。
設(shè)對聲音模型存儲部3中存儲的聲音模型的每個執(zhí)行接著的步驟S2 和步驟S3。聲壓比較部4比較輸入信號的聲壓與聲音模型的聲壓(步驟 S2)。具體而言,由于倒譜的O次分量表示聲壓的對數(shù)值的信息,所以算出
聲音模型持有的倒譜的0次分量(聲音模型存儲部3的聲壓3a)與由特征量 變換部2算出的輸入信號的倒譜的0次分量C(O, t)之差。 h廣C (0, t) (4)
其中,u。,j表示第j個聲音模型持有的倒譜的0次分量(聲音模型存 儲部3的聲壓3a)。
接著,距離算出部5算出輸入信號的特征量與聲音模型持有的特征量 的距離(步驟S3)。
之后,增益值算出部6根據(jù)聲壓比較部4對每個模型算出的倒譜的0 次分量的差與由距離算出部5算出的距離,來推定增益(步驟S4)。
具體而言,首先,選擇聲音模型j的概率(正規(guī)化后的似然)P(jlC(t)) 由下式求出。
戶G IC(/)) = d[C(a ^ ] / J] ,4C(/), ] (5 )
式(5)中,d[C(t), yj]表示輸入信號的特征量(倒譜)與第j個聲音模 型持有的特征量的距離。該距離由距離算出部5計算(不包含0次倒譜)。 另外,式(5)的分母的j'表示聲音模型,涉及j'的距離d[C(t), p,]之 和表示涉及多個聲音模型之和。該和也可對聲音模型存儲部3中存儲的全 部的聲音模型執(zhí)行?;蛘?,也可對距離近的上位數(shù)個執(zhí)行等。不用說,式 (5)的概率導(dǎo)出也可使用倒譜以外的特征量來計算。
接著,通過使用該概率P (j IC (t))對聲音模型的每個取加權(quán)平均(期待 值),算出增益g(t)的值。
洲=exp[Z , {( -C(0,0)尸(/1 C(,)川 (6 )
上式(6)中,實施exp []是為了將由式(3)實施log []并變形為對 數(shù)區(qū)域的量的值恢復(fù)為原始值。
上式(6)中,涉及j的和表示涉及多個模型的和。該和與式(5)—樣對 模型執(zhí)行。
另外,在本實施例中,示出對應(yīng)于每個單位時間的輸入信號與聲音模 型每個的距離,來加權(quán)平均倒譜的O次項的差的實例,但也可代替式(6), 如下式(7)所示,對倒譜的O次項的差實施exp [],恢復(fù)為聲壓之比,之 后,對應(yīng)于每個單位時間的輸入信號與聲音模型每個的距離,進(jìn)行加權(quán)平
20均。
洲工(ex麵-C(O,,)剛C, (7)
另外,也可根據(jù)對與每個單位時間的輸入信號(的特征量)的距離最近 的聲音模型的倒譜之O次項的差,算出增益g(t)。
洲=叫[~-C(O,,)] (8)
其中,k表示與每個單位時間的輸入信號的距離最近的聲音模型。
最后,聲壓補(bǔ)正部7取由增益值算出部6算出的增益g(t)與輸入信號 X(f,t)的積,補(bǔ)正輸入信號的聲壓水平(步驟S5)。
Y (f, t) 二g(t)X (f,t) (9)
其中,Y(f,t)表示補(bǔ)正后的信號。Y(f,t)與X(f,t)一樣,f表示頻率 方向的序號,t表示時間方向的序號(幀序號)。
在本實施例中,示出對按每個單位時間切出輸入信號的單位、即每個 幀來補(bǔ)正聲壓水平的實例,但也可就增益g(t)而言,對多個幀取平滑化或 平均等,對多個幀補(bǔ)正聲壓水平。
下面,說明本實施例的作用效果。
根據(jù)本實施例,通過使用事先以規(guī)定聲壓的聲音學(xué)習(xí)的聲音模型,如 圖3所示,可反映每個音素的聲壓差異。
另外,根據(jù)本實施例,通過使用聲音模型,可不強(qiáng)調(diào)無用的噪聲,能 夠正確地強(qiáng)調(diào)構(gòu)成目的的聲音。
并且,根據(jù)本實施例,通過在增益算出中使用對應(yīng)于每個單位時間的 輸入信號與聲音模型的每個之間的距離的加權(quán)平均,不必對全部音素的每 個準(zhǔn)備多個聲壓的模型或進(jìn)行多次推定,所以可以少的容量和計算成本實 現(xiàn)。
〈實施例2>
圖4是表示本發(fā)明第2實施例的構(gòu)成圖。參照圖4,在本發(fā)明的第2 實施例中,聲音模型存儲部3'按每個音素或分割聲音的每個簇單位,包 含聲壓、特征量與聲音模型的出現(xiàn)頻度(事先概率)。即,在聲音模型存儲 部3'中,向第1實施例的聲音模型存儲部3追加輸出頻度信息。另外, 本發(fā)明的第2實施例中,增益值算出部6'根據(jù)聲壓比較部4對聲音模型 的每個算出的聲壓之比、距離算出部5對聲壓模型的每個算出的距離、和聲音模型的每個的出現(xiàn)頻度(事先概率),來算出增益。
存儲在聲音模型存儲部3'中的聲音模型,分別由聲壓3a、特征量3b 與出現(xiàn)頻度(事先概率)3c構(gòu)成。雖然未特別限制,但在本實施例中,可使 用G麗作為聲音模型。除G薩以外,也可使用聲音識別用中使用的H麗等。
作為聲壓3a,與上述實施例一樣,使用倒譜的0次。另外,作為特征 量3b,既可使用將聲音變換為特征量后的值本身,也可使用輸出該值的概 率密度分布。
另外,出現(xiàn)頻度(事先概率)3c是在多個聲音模型中構(gòu)成對象的聲音模 型出現(xiàn)的頻度。
聲壓3a、特征量3b、出現(xiàn)頻度(事先概率)3c使用Expectation Maximization (EM)算法等來學(xué)習(xí)(非專利文獻(xiàn)1)。
本實施例相對所述第1實施例,置換了步驟S4的增益值算出中的處理。
增益值算出部6'根據(jù)聲壓比較部4對聲音模型的每個算出的倒譜的 0次分量之差、距離算出部5對聲壓模型的每個算出的距離、和對應(yīng)的聲 音模型的出現(xiàn)頻度3c,來推定增益。
具體地,首先算出選擇聲音模型j的概率(事后概率)。 尸(y I C(O) = /^W[C(,), a〗/S j.尸(/)c/[C(/),/v] (10)
式(10)中,d [C (t) , p J表示輸入信號的特征量(倒譜)與第j個聲音模 型持有的特征量的距離(C(t)中去除C(O, t))。 P(j)表示第j個聲音模型的出現(xiàn)頻度。
涉及分母j'的和仏.P(j, )d[C(t), 1^]},表示涉及多個聲音模型 之和。該和也可對聲音模型存儲部3'中存儲的全部聲音模型來執(zhí)行,或 對距離近的上位數(shù)個來執(zhí)行等。
使用該概率P(jiC(t))對聲音模型的每個取加權(quán)平均(期待值),由此 算出增益值。具體而言,與所述第l實施例一樣,使用式(6)、 (7)或式(8) 來算出。
下面,說明本實施例的作用效果。
相對于所述第l實施例,當(dāng)求出選擇聲音模型的概率時,通過使用利 用事先學(xué)習(xí)準(zhǔn)備的出現(xiàn)頻度(事先概率)的信息,可正確地推定音素的特
22征。
〈實施例3〉
圖5是表示本發(fā)明第3實施例的構(gòu)成圖。參照圖5,本發(fā)明的第3實
施例除所述第1實施例外,還具備根據(jù)輸入信號取得噪聲分量的噪聲推
定部8;和根據(jù)輸入信號與噪聲推定部8推定的噪聲、推定并輸出聲音的純聲音推定部9。
噪聲推定部8例如將輸入信號的最初數(shù)個幀視為非聲音區(qū)間,根據(jù)該區(qū)間中的輸入信號的平均值來推定噪聲。
純聲音推定部9使用非專利文獻(xiàn)6所示的頻譜減法等噪聲抑制方法,根據(jù)輸入聲音和由噪聲推定部8得到的噪聲分量的信息,推定并輸出去除了噪聲分量后的純的聲音。所謂頻譜減法,是在頻譜區(qū)域按每個頻率分量從輸入信號中減去噪聲分量的方法。
特征量變換部2輸入從純聲音推定部9輸出的、抑制了噪聲分量的純聲音,取出純聲音的特征量和聲壓。
根據(jù)本發(fā)明的第3實施例,與圖1的第1實施例(無噪聲推定部8、純聲音推定部9)相比,可不強(qiáng)調(diào)噪聲分量,正確強(qiáng)調(diào)構(gòu)成目的的聲音。<實施例4>
下面,說明本發(fā)明的第4實施例。在圖5所示的所述第3實施例中,聲壓補(bǔ)正部7使用由增益值算出部6算出的增益,補(bǔ)正輸入信號的聲壓。相反,參照圖6,在本發(fā)明的第4實施例中,聲壓補(bǔ)正部7使用由增益值算出部6算出的增益,補(bǔ)正由純聲音推定部9推定的純聲音的聲壓。
〈實施例5〉
下面,說明本發(fā)明的第5實施例。參照圖7,本發(fā)明的第5實施例是將圖1的第1實施例中使用增益來補(bǔ)正輸入信號的聲壓的聲壓補(bǔ)正部7置換成根據(jù)增益與輸入信號、算出聲音識別中使用的特征量的第二特征量變換部10。其它構(gòu)成與所述第1實施例一樣。
在根據(jù)輸入信號算出特征量的特征量變換部2、與根據(jù)增益和輸入信號算出特征量的第二特征量變換部10中,也可使用不同的特征量。
例如,特征量變換部10將不依賴于聲壓的量設(shè)為特征量,在執(zhí)行增益控制時,特征量變換部2也可以使用依賴于聲壓的特征量。<實施例6>
下面,說明本發(fā)明的第6實施例。在所述第5實施例中,第二特征量
變換部10根據(jù)增益值算出部6算出的增益與輸入信號,算出聲音識別中使用的特征量。參照圖8,在本發(fā)明的第6實施例中,第二特征量變換部10使用由增益值算出部6算出的增益,補(bǔ)正由特征量變換部2算出的特征量,并設(shè)為聲音識別中使用的第二特征量。例如,第二特征量變換部10對由特征量變換部2算出的特征量執(zhí)行乘以增益等的處理。<實施例7〉
下面,說明本發(fā)明的第7實施例。本發(fā)明的第7實施例構(gòu)成為在使圖11所示的聲音模型適應(yīng)于噪聲的方法中,使用所述第1實施例的增益算出部6算出的增益,求出圖11所示的水平調(diào)整系數(shù)。另外,也可不直接使用按切出輸入信號的每個時間單位由增益值算出部6算出的增益,而在多個幀和多個發(fā)聲中進(jìn)行平均化。另外,所述第1 第6實施例也可相互組合后使用。
根據(jù)本發(fā)明,可使聲音的聲壓恒定,可通信和錄音易聽到的明了的聲
音
另外,通過與聲音識別系統(tǒng)組合使用,可頑強(qiáng)識別聲音的聲壓變動。另外,也可應(yīng)用于助聽器等。
以上根據(jù)上述實施例說明了本發(fā)明,但本發(fā)明不僅限于上述實施例的構(gòu)成,不用說,包含在本發(fā)明的范圍內(nèi)本領(lǐng)域技術(shù)人員可執(zhí)行的各種變形、修正。
權(quán)利要求
1、一種增益控制系統(tǒng),調(diào)整并輸出輸入信號的聲壓,其特征在于,具備按每個單位時間切出所述輸入信號,按音素或?qū)⒙曇舴指畛纱氐膯挝粊矸诸愃霭疵總€單位時間切出的輸入信號的部件;算出增益以使所述按每個單位時間切出的輸入信號的聲壓與按每個音素或每個簇單位設(shè)定的聲壓一致的部件;和使用所述算出的增益,在所述每個單位時間或多個單位時間中控制所述輸入信號的聲壓的部件。
2、 根據(jù)權(quán)利要求l所述的增益控制系統(tǒng),其特征在于具備根據(jù)所述按每個單位時間切出的輸入信號來分析特征量的部件, 將所述特征量中依賴于聲壓的特征量設(shè)為所述輸入信號的聲壓。
3、 一種增益控制系統(tǒng),調(diào)整并輸出輸入信號的聲壓,其特征在于,包含輸入信號取得部,取得從輸入器件輸入的聲音信號,并按每個單位時 間切出; '特征量變換部,根據(jù)所述按每個單位時間切出的輸入信號,算出特征量和聲壓;聲音模型存儲部,按多個音素的每個或?qū)⒙曇舴指畛纱氐拿總€單位, 存儲持有特征量與聲壓信息的聲音模型;距離算出部,算出所述按每個單位時間切出的輸入信號的特征量與所 述聲音模型存儲部中存儲的所述聲音模型之每個的特征量之間的距離;聲壓比較部,算出所述按每個單位時間切出的輸入信號的聲壓與所述 聲音模型存儲部中存儲的所述聲音模型的每個之間的聲壓之比;增益值算出部,根據(jù)對所述聲音模型的每個算出的距離和聲壓之比, 算出增益;和聲壓補(bǔ)正部,使用由所述增益值算出部算出的增益,補(bǔ)正按每個單位 時間切出的輸入信號的聲壓。
4、 根據(jù)權(quán)利要求3所述的增益控制系統(tǒng),其特征在于所述聲音模型存儲部還存儲保持聲音模型的出現(xiàn)頻度信息, 所述增益值算出部根據(jù)對所述聲音模型的每個算出的距離、聲壓之比、和所述聲音模型存儲部中存儲的聲音模型的每個的出現(xiàn)頻度,算出增益。
5、 根據(jù)權(quán)利要求3或4所述的增益控制系統(tǒng),其特征在于所述增益值算出部,使用按每個單位時間切出的輸入信號與聲音模型 之間的距離,對音素或?qū)⒙曇舴指畛纱氐膯挝唬訖?quán)平均每個單位時間切 出的輸入信號與聲音模型的聲壓之比,算出增益。
6、 根據(jù)權(quán)利要求3 5之一所述的增益控制系統(tǒng),其特征在于,具備: 噪聲推定部,根據(jù)所述輸入信號取得噪聲分量;和 純聲音推定部,根據(jù)所述輸入信號,算出抑制由所述噪聲推定部推定的噪聲分量的信號,并輸出抑制了噪聲分量的信號,所述特征量變換部,輸入從所述純聲音推定部輸出的、抑制了噪聲分 量的信號,取出輸入的信號的特征量和聲壓。
7、 根據(jù)權(quán)利要求6所述的增益控制系統(tǒng),其特征在于 所述聲壓補(bǔ)正部輸入從所述純聲音推定部輸出的、抑制了噪聲分量的信號,并補(bǔ)正聲壓。
8、 根據(jù)權(quán)利要求3 5之一所述的增益控制系統(tǒng),其特征在于所述聲壓補(bǔ)正部在多個所述單位時間中平滑化或平均化所述每個單 位時間求出的增益,在多個所述單位時間中控制聲壓。
9、 一種聲音識別系統(tǒng),其特征在于權(quán)利要求3 8之一所述的增益控制系統(tǒng),代替所述聲壓補(bǔ)正部,具 備第二特征量變換部,其根據(jù)所述增益值算出部算出的增益與所述輸入信 號,算出聲音識別中使用的特征量,使用由所述第二特征量變換部算出的特征量來執(zhí)行聲音識別。
10、 一種聲音識別系統(tǒng),其特征在于權(quán)利要求3 8之一所述的所述增益控制系統(tǒng),代替所述聲壓補(bǔ)正部,具備第二特征量變換部,其使用由所述增益值算出部算出的增益,補(bǔ)正由 所述特征量變換部求出的特征量,算出聲音識別中使用的特征量, 使用由所述第二特征量變換部算出的特征量來執(zhí)行聲音識別。
11、 根據(jù)權(quán)利要求9或10所述的聲音識別系統(tǒng),其特征在于 具備根據(jù)算出的增益,使聲音模型適應(yīng)于噪聲,并且使用適應(yīng)于所述噪聲的聲音模型,來執(zhí)行聲音識別的部件。
12、 一種增益控制方法,調(diào)整并輸出輸入信號的聲壓,其特征在于 按每個單位時間切出輸入信號;按音素單位或?qū)⒙曇舴指畛纱氐膯挝粊矸诸愃霭疵總€單位時間切 出的輸入信號;算出增益以使所述按每個單位時間切出的輸入信號的聲壓與按每個音素或每個簇單位設(shè)定的聲壓一致;在所述每個單位時間或多個單位上控制聲壓。
13、 一種增益控制方法,調(diào)整并輸出輸入信號的聲壓,其特征在于按每個音素或?qū)⒙曇舴指畛纱氐拿總€單位,將持有特征量與聲壓信息 的聲音模型存儲在聲音模型存儲部中,包含如下步驟取得從輸入器件輸入的聲音信號,并按每個單位時間切出; 根據(jù)所述按每個單位時間切出的輸入信號,算出特征量和聲壓; 算出所述按每個單位時間切出的輸入信號的特征量與所述聲音模型存儲部中存儲的所述聲音模型之每個的特征量之間的距離;算出所述按每個單位時間切出的輸入信號的聲壓與所述聲音模型存儲部中存儲的所述聲音模型之每個的聲壓之比;根據(jù)對所述聲音模型的每個算出的距離和聲壓之比,算出增益;和 使用所述算出的增益,補(bǔ)正按每個單位時間切出的輸入信號的聲壓。
14、 根據(jù)權(quán)利要求13所述的增益控制方法,其特征在于所述聲音模型存儲部還存儲保持聲音模型的出現(xiàn)頻度信息, 在所述算出增益的步驟中,根據(jù)對所述聲音模型的每個算出的距離、聲壓之比、和所述聲音模型存儲部中存儲的聲音模型之每個的出現(xiàn)頻度,算出增益。
15、 根據(jù)權(quán)利要求13或14所述的增益控制方法,其特征在于 在所述算出增益的步驟中,使用按每個單位時間切出的輸入信號與聲音模型的距離,對音素或?qū)⒙曇舴指畛纱氐膯挝唬訖?quán)平均每個單位時間切出的輸入信號與聲音模型的聲壓之比,算出增益。
16、 根據(jù)權(quán)利要求13 15之一所述的增益控制方法,其特征在于,包含如下步驟根據(jù)所述輸入信號取得噪聲分量;和根據(jù)所述輸入信號,算出抑制了由所述噪聲推定部推定的噪聲分量的 信號,并輸出抑制了噪聲分量的信號,在所述算出特征量的步驟中,輸入所述抑制了噪聲分量的信號,作為 所述輸入信號,取出特征量和聲壓。
17、 根據(jù)權(quán)利要求16所述的增益控制方法,其特征在于 所述補(bǔ)正聲壓的步驟,輸入所述抑制了噪聲分量的信號,并補(bǔ)正聲壓。
18、 根據(jù)權(quán)利要求13 15之一所述的增益控制方法,其特征在于所述補(bǔ)正聲壓的步驟,在多個所述單位時間中平滑化或平均化所述每 個單位時間求出的增益,在多個所述單位時間中控制聲壓。
19、 根據(jù)權(quán)利要求13所述的增益控制方法,其特征在于代替所述補(bǔ)正聲壓的步驟,包含根據(jù)算出的增益與輸入信號、算出執(zhí) 行聲壓調(diào)整的特征量的步驟。
20、 一種程序,在執(zhí)行用于調(diào)整并輸出輸入信號的聲壓的增益控制的計算機(jī)中執(zhí)行如下處理按每個單位時間切出輸入信號,按音素單位或?qū)⒙曇舴指畛纱氐膯挝粊矸诸愃霭疵總€單位時間切出的輸入信號;和算出增益以使所述按每個單位時間切出的輸入信號的聲壓與按每個 音素或每個簇單位設(shè)定的聲壓一致,并在所述每個單位時間或多個單位中 控制聲壓。
21、 一種程序,執(zhí)行用于調(diào)整并輸出輸入信號的聲壓的增益控制的計算機(jī),具備聲音 模型存儲部,其按每個音素或?qū)⒙曇舴指畛纱氐拿總€單位,存儲持有特征 量與聲壓信息的聲音模型,所述程序讓所述計算機(jī)執(zhí)行如下處理按每個音素或?qū)⒙曇舴指畛纱氐拿總€單位,將持有特征量與聲壓信息的聲音模型存儲在聲音模型存儲部中;取得從輸入器件輸入的聲音信號,并按每個單位時間切出;根據(jù)所述按每個單位時間切出的輸入信號,算出特征量和聲壓;算出所述按每個單位時間切出的輸入信號的特征量與所述聲音模型存儲部中存儲的所述聲音模型之每個的特征量之間的距離;算出所述按每個單位時間切出的輸入信號的聲壓與所述聲音模型存儲部中存儲的所述聲音模型之每個的聲壓之比;根據(jù)對所述聲音模型的每個算出的距離和聲壓之比,算出增益;和 使用所述算出的增益,補(bǔ)正按每個單位時間切出的輸入信號的聲壓。
22、 根據(jù)權(quán)利要求21所述的程序,其特征在于所述聲音模型存儲部還存儲保持聲音模型的出現(xiàn)頻度信息, 在所述算出增益的處理中,讓計算機(jī)執(zhí)行如下處理,即根據(jù)對所述聲音模型的每個算出的距離、聲壓之比、和所述聲音模型存儲部中存儲的聲音模型之每個的出現(xiàn)頻度,算出增益。
23、 根據(jù)權(quán)利要求21所述的程序,其特征在于在所述算出增益的處理中,讓計算機(jī)執(zhí)行如下處理,即使用按每個單 位時間切出的輸入信號與聲音模型的距離,對音素或?qū)⒙曇舴指畛纱氐膯?位,加權(quán)平均每個單位時間切出的輸入信號與聲音模型的聲壓之比,算出 增益。
24、 根據(jù)權(quán)利要求21所述的程序,其特征在于,讓計算機(jī)執(zhí)行如下 處理根據(jù)所述輸入信號取得噪聲分量;根據(jù)所述輸入信號,算出抑制了由所述噪聲推定部推定的噪聲分量的 信號,并輸出抑制了噪聲分量的信號;和在所述算出特征量的處理中,輸入所述抑制了噪聲分量的信號,作為 所述輸入信號,取出特征量和聲壓。
25、 根據(jù)權(quán)利要求21所述的程序,其特征在于所述補(bǔ)正聲壓的處理,讓計算機(jī)執(zhí)行如下處理,即輸入所述抑制了噪聲分量的信號,并補(bǔ)正聲壓。
26、 根據(jù)權(quán)利要求21所述的程序,其特征在于-所述補(bǔ)正聲壓的處理,讓計算機(jī)執(zhí)行如下處理,即在多個所述單位時間中平滑化或平均化所述每個單位時間求出的增益,在多個所述單位時間 中控制聲壓。
27、 一種程序,讓所述計算機(jī)執(zhí)行根據(jù)算出的增益與輸入信號、算出 執(zhí)行聲壓調(diào)整的特征量的處理,代替所述補(bǔ)正聲壓的處理。
28、 一種聲音識別用的增益控制裝置,其特征在于,具備 聲音模型存儲部,以每個音素或簇單位,存儲事先由規(guī)定聲壓的聲音學(xué)習(xí)、并分別包含依賴于聲壓的第1特征量與第2特征量的聲音模型; 按每個單位時間切出輸入信號后分析、并導(dǎo)出特征量的部件;和算出增益的部件,其根據(jù)所述聲音模型存儲部中存儲的所述聲音模型 的第2特征量和與所述輸入信號對應(yīng)的特征量的距離,算出選擇各個聲音 模型的概率,使用所述概率,對聲音模型的每個,加權(quán)所述輸入信號的特 征量中依賴于聲壓的特征量與所述聲音模型存儲部中存儲的所述聲音模 型的第l特征量之差,算出增益,執(zhí)行使輸入信號的聲壓與事先通過學(xué)習(xí)準(zhǔn)備的聲音模型的音素或每 個簇的聲壓一致的控制。
29、 根據(jù)權(quán)利要求28所述的聲音識別用的增益控制裝置,其特征在于所述聲音模型存儲部還存儲聲音模型的出現(xiàn)頻度,使用所述聲音模型存儲部中存儲的聲音模型的所述第2特征量與所述輸入信號對應(yīng)的特征量之間的距離、和聲音模型的出現(xiàn)頻度,算出選擇各 個聲音模型的概率。
30、 一種聲音識別用的增益控制裝置,其特征在于,具備聲音模型存儲部,以每個音素或簇單位,存儲事先由規(guī)定聲壓的聲音學(xué)習(xí)、并分別包含依賴于聲壓的第1特征量與第2特征量的聲音模型; 按每個單位時間切出輸入信號后分析、并導(dǎo)出特征量的部件;和 算出增益的部件,其對聲音模型的第2特征量,選擇與每個單位時間的輸入信號的特征量的距離最近的聲音模型,根據(jù)依賴于所述聲音模型的聲壓的第1特征量與所述輸入信號的特征量中依賴于聲壓的特征量之差,算出增益,執(zhí)行使輸入信號的聲壓與事先通過學(xué)習(xí)準(zhǔn)備的聲音模型的音素或每個簇的聲壓一致的控制。
31、 根據(jù)權(quán)利要求28 30之一所述的聲音識別用的增益控制裝置,其特征在于作為所述依賴于聲壓的第i特征量,使用倒譜的o次分量,作為所述第2特征量,使用0次分量以外的倒譜、頻譜、對數(shù)頻譜、 間距、功率、這些之一的一階或二階差分量中的至少一個。
32、 一種增益控制裝置,其特征在于將事先以規(guī)定聲壓的聲音學(xué)習(xí)的聲音模型存儲在聲音模型存儲部中, 具備參照所述聲音模型存儲部,對所述聲音模型存儲部中存儲的聲音 模型的每個執(zhí)行輸入信號的聲壓與聲音模型的聲壓的比較、和所述輸入信號的特征量與聲音模型持有的特征量之間的距離的算出的部件;和 根據(jù)所述聲壓的比較結(jié)果與所述特征量的距離來算出增益的部件。
33、 一種增益控制方法,其特征在于,包含下述各步驟 參照用于存儲事先以規(guī)定聲壓的聲音學(xué)習(xí)的聲音模型的聲音模型存儲部,對所述聲音模型存儲部中存儲的聲音模型的每個,執(zhí)行輸入信號的 聲壓與聲音模型的聲壓的比較、和所述輸入信號的特征量與聲音模型持有 的特征量之間的距離的算出;根據(jù)所述聲壓的比較結(jié)果與所述特征量的距離來算出增益。
34、 一種程序,在可參照存儲了事先以規(guī)定聲壓的聲音學(xué)習(xí)的聲音模 型的聲音模型存儲部之計算機(jī)中執(zhí)行如下處理參照所述聲音模型存儲部,對所述聲音模型存儲部中存儲的聲音模型 的每個,執(zhí)行輸入信號的聲壓與聲音模型的聲壓的比較、和所述輸入信號 的特征量與聲音模型持有的特征量之間的距離的算出;和根據(jù)所述聲壓的比較結(jié)果與所述特征量的距離來算出增益。
全文摘要
對多個音素的每個或?qū)⒙曇舴指畛纱氐拿總€單位,將由聲壓與特征量的組構(gòu)成的聲音模型存儲在聲音模型存儲部(3)中。當(dāng)提供輸入信號時,由特征量變換部(2)算出特征量和聲壓,由聲壓比較部(4)求出輸入信號與聲音模型之每個的聲壓比,由距離算出部(5)算出輸入信號與聲音模型之每個的特征量的距離,由增益算出部(6)根據(jù)聲壓的比與距離的信息,算出增益的值,由聲壓補(bǔ)正部(7)補(bǔ)正輸入信號的聲壓。
文檔編號G10L15/06GK101460996SQ20078002048
公開日2009年6月17日 申請日期2007年1月16日 優(yōu)先權(quán)日2006年6月2日
發(fā)明者荒川隆行, 辻川剛范 申請人:日本電氣株式會社