亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

以語音特征為基礎(chǔ)的話語識別裝置及方法

文檔序號:2837413閱讀:214來源:國知局
專利名稱:以語音特征為基礎(chǔ)的話語識別裝置及方法
技術(shù)領(lǐng)域
本發(fā)明總地涉及自動話語識別(ASR)系統(tǒng),并更具體涉及可產(chǎn)生一組語音特征的一種元音矢量投射類似性系統(tǒng)和方法。

發(fā)明內(nèi)容
用于對普通話中文語言的輸入話語頻譜矢量進行精確話語識別的一種裝置及方法,其步驟包含有選擇一組九個靜態(tài)(stationary)普通話元音用作為語音特征參考元音,計算在九個靜態(tài)普通話參考元音的上的輸入矢量的投射與相對投射類似性,從這些九個靜態(tài)普通話元音中選出一組具高投射類似性的元音,從該組高投射類似性元音中,選擇其中具有與輸入矢量有最高相對投射類似性的靜態(tài)普通話元音,以及若該組的高投射類似性元音為零(null),則響應(yīng)于一個投射類似性的量測值,從這些九個靜態(tài)普通話元音中選擇一個元音。
圖2為非靜態(tài)元音″ai″的頻譜以及其美-標度表示。
圖3(a)顯示沿著一參考矢量c(k)的方向的與一輸入矢量x的投射成比例的投射類似性;圖3(b)顯示在頻譜上相似的參考元音″i″與″iu″,其中輸入矢量在這些相似的參考元音上的投射類似性都會很高。
圖4是為一矢量圖,其中顯示二維矢量的相對投射類似性。
圖5為普通話元音″ai″的語音特征輪廓圖,示出了依據(jù)本發(fā)明的參考元音之間的轉(zhuǎn)變。
圖6(a)顯示對于元音″i″(暗點)與元音″iu″(淡點)的a(8)(垂直軸)與a(6)(水平軸)的投射類似性。
圖6(b)顯示對于相同元音的參考頻譜,投射類似性的識別度(無相對投射類似性)與本發(fā)明的語音特征方案之間的比較。
圖7為根據(jù)本發(fā)明的″iu″的語音特征相對于″i″的語音特征的圖形,λ作為一個參數(shù),其隨著灰度的增加而具有較大的數(shù)值。
當人類說話時,空氣是由肺部推出以刺激聲帶。發(fā)音部位接著根據(jù)所欲發(fā)出的聲音形成壓力波。對于一些元音而言,發(fā)音部位的形狀在整個清晰發(fā)音過程中保持未改變,以致于頻譜形狀及時呈現(xiàn)靜態(tài)。對其他元音而言,清晰發(fā)音由發(fā)音部位的形狀開始,其逐漸地改變,且接著定位至另一形狀。對于靜態(tài)元音而言,頻譜形狀確定音素的識別及這些形狀被用作為語音特征映射中的參考頻譜。然而,非靜態(tài)元音,一般具有兩或三個參考元音區(qū)段及在這些元音之間的過渡區(qū)段。

圖13為靜態(tài)元音″i″及非靜態(tài)元音″ai″的頻譜,說明差異。圖14為非靜態(tài)元音″ai″的頻譜及美-標度頻率表示,顯示具有類似于元音″a″的頻譜的初始相,位移至類似于元音″e″的頻譜及最后定位在類似元音″i″的頻譜。美-標度調(diào)整將物理上的赫茲頻率轉(zhuǎn)換到感知頻率標度上,并可被利用來描述人類主觀音調(diào)感覺。在美-標度中,以低頻頻帶發(fā)聲的情形,要比以高頻頻帶發(fā)聲的情況來得多;而赫茲(或頻率)標度及美-標度之間的關(guān)系可以表示為美=2595×log(1+f/700)其中f是為信號的頻率。本發(fā)明的較佳實施例利用了九種靜態(tài)元音作為參考元音,以構(gòu)成所有37個普通話元音的基礎(chǔ)。表1中列出了37種普通話元音音素以及九種參考音素。
表137種普通話元音音素a,o,e,ai,è,ei,au,ou,an,en,ang,eng,i,u,iu,ia,ie,iau,iou,iai,ian,in,iang,ing,ua,uo,uai,uei,uan,uen,uang,ueng,iue,iuan,iun,iong,el九種參考普通話元音音素a,o,e,è,eng,i,u,i u,el此九個參考元音的頻譜由c(i)來代表,其中i=1,2,…,9,且對于此情況,其每一個是通過將在以訓(xùn)練組中的一特定參考元音的所有幀加以平均所計算得到的一個64維的矢量(或者在逆傅里葉變換中為波分量)。
本發(fā)明使用一種語音特征映射而從一個64維的頻譜矢量中產(chǎn)生出九個特征。首先,本發(fā)明從所有的元音音素中選出九個參考矢量。接著,語音特征映射計算一個輸入頻譜對于九個參考頻譜矢量的投射類似性,然后計算輸入頻譜和72對參考頻譜矢量之間的另外一組的72個相對類似性。之后還以參考矢量為基礎(chǔ),該映射計算輸入頻譜的另一組72個相對類似性。通過將此些類似性組合,便可以獲得最終一組的九個語音特征。與傳統(tǒng)的將輸入頻譜分類成為參考頻譜之一的分類方案有所不同,本發(fā)明定量地規(guī)范輸入頻譜相對于九個參考頻譜的形狀(還有發(fā)聲部位的形狀)。本發(fā)明的語音特征映射通過類似性的測量而實現(xiàn)特征的抽取(或者說維數(shù)減少)。本發(fā)明的較佳實施例中使用了兩種形式的基于投射的類似性測量即投射類似性,以及相對投射類似性。
圖3(a)示出了沿著具有預(yù)定加權(quán)的一參考矢量c(k)的方向,與一輸入矢量x的投射成比例的投射類似性a(k)=Σwi(k)·xi·ci(k)||c(k)||]]>其中k=1,…,9,且||c(k)||=(Σi=164(ci(k))2]]>且其加權(quán)因數(shù)由下式給出wi(k)=ci(k)/σi(k)Σi=164ci(k)/σi(k)]]>其中i=1、2、…、64及k=1、2、…、9以及σi(k)為對應(yīng)于kth參考元音的總體中維量i的標準偏差。在加權(quán)因子wi(k)中,σi(k)用作為常數(shù),其使得在所有9個參考矢量中的所有維量具有相同方差。在加權(quán)因子的ci(k)項強調(diào)具有較大振幅的頻譜分量。此組對應(yīng)至每一參考矢量的加權(quán)數(shù)被正規(guī)化。
對許多情況而言,上述的投射類似性是足以用于精確的話語識別。但圖15(b)顯示頻譜上相似的參考元音″i″及″iu″的情況,其中在這些類似參考元音上的輸入矢量的投射類似性將都為大及話語輸入將為頻譜上相似于類似的音素,從而需要進一步的區(qū)分以實現(xiàn)精確的話語識別。
本發(fā)明的另一實施例利用了“相對投射類似性”,其僅抽取決定性的頻譜分量,從而實現(xiàn)較佳的區(qū)分作用。為了解說容易,圖4為一矢量圖,說明用于二維矢量的相對投射類似性。當然,所有多維矢量是在本發(fā)明的預(yù)期范圍內(nèi)。輸入矢量x接近兩類似的參考矢量c(k)及c(l),稍微較接近c(k),但在投射上的差異不大,如圖4(a)所示。通過c(k)-c(l)表示的界于c(k)及c(l)之間的差異對于輸入話語矢量x的分類具有決定性。圖4(b)及4(c)顯示x-c(l)在c(k)-c(l)上的投射是大于x-c(k)在c(l)-c(k)上的投射,以及其間的差異是較x單獨在c(k)及在c(l)上的投射之間的差異顯著。利用此觀察,相對于c(l)的輸入矢量x在c(k)的統(tǒng)計上加權(quán)投射為q(k,l)=Σi=164vi(k,l)·(xi-ci(l))·(ci(k)-ci(l))||ck-c(l)||]]>其中k=1、...、9,l≠k,以及||c(k)-c(l)||=Σi=164(ci(k)-ci(l))2.]]>正規(guī)化加權(quán)數(shù)因子由下式表示vi(k,l)=|ci(k)-ci(l)|/(σi(k))2+(σi(l))2Σi=164|ci(k)-ci(l)|/(σi(k))2+(σi(l))2]]>其中i=1、...、64;k=1、...、9,l≠k。加權(quán)因子用于強調(diào)此具有大差異的兩參考矢量的這些分量及用于使差異在所有維量中相等。在q(k,l)為負數(shù)的情況中,為了控制動態(tài)范圍及為了維持識別輸入矢量所需的線索,負的q(k,l)被設(shè)定為一小正值以及正值的q(k,l)不改變(單極傾斜函數(shù))。相對于c(l)的x在c(k)上的相對投射類似性被定義為r(k,l)=q(k,l)q(k,l)+q(l,k)]]>其中k=1、...、9,l≠k。因此,總共有8×9=72個相對的投射類似性,其與9個投射類似性一起界定本發(fā)明的較佳具體實施例的語音特征。
在本發(fā)明的一具體實施例中,投射類似性及相對投射類似性的整合以辨認話語是利用一譜系分類,其中投射類似性通過選擇具有較大的x在c(k)上的投射值,換言之,對a(k)而言為大值的的候選對象來確定第一粗略分類。候選對象被進一步使用成對的相對投射類似性進行篩選。然而,若第一粗略分類未適當?shù)卣{(diào)整,可能未選擇到良好的候選對象。
在本發(fā)明的較佳具體實施例中,投射類似性及相對投射類似性是通過話語特征映射而被積分,其利用方案(a)相對投射類似性被利用用于任何兩具有大投射類似性的參考矢量;以及(b)否則,投射類似性可單獨使用。此將不僅產(chǎn)生更精確的話語識別,亦可更有效率地計算。語音特征被定義為p(k)=1λa(k)+1λΣl=1,l=k9(r(k,l)p(l)-r(l,k)p(k))]]>其中k=1、2、…、9及λ為標度因子,用于控制交叉耦合或橫向抑制的程度。對上述兩參考矢量的方程式的解法(為了說明的簡化性)由下式所示p(k)p(l)=λa(k)+(a(k)+a(l))γ(k,l)λa(l)+(a(k)+a(l))γ(l,k)]]>對于a(k)及a(l)二者皆大且具有可比較的振幅的情況下,假設(shè)x較接近歐幾里得范數(shù)感覺中的c(k),x與c(k)的間的距離較小,所以r(k,l)大于r(l,k)。若λ相對地小,接著p(k)/p(l)接近r(k,l)/r(l,k),其是通過r(k,l)及r(l,k),相對投射類似性而被確定。對于a(k)及a(l)中只有一者為大時,假設(shè)a(k)為大,則r(k,l)及r(l,k)分別接近于1及0以及p(k)/p(l)≈(λ+1)a(k)+a(l)λa(l),]]>其通過a(k)及a(l)被確定。對于第三及最后一種可能情況,其中a(k)及a(l)皆小,p(k)∝λa(k)+(a(k)+a(l))r(k,l)以及p(l)∝λa(1)+(a(k)+a(l))r(l,k).
因為a(k)及a(l)皆小,以及r(k,l)及r(l,k)小于1,因此p(k)及p(l)亦小且可忽略。定義r(k,k)=λ+Σl=1,l=k9r(l,k)]]>其中k=1、2、…、9,接著上述p(k)的方程式可寫成矩陣形式 對于k=1、2、…、9的語音特征p(k)通過在兩側(cè)乘上上述矩陣的倒數(shù)而解出。
圖5為普通話元音″ai″的語音特征輪廓圖,開始時最大的語音特征為″a″,接著轉(zhuǎn)移成元音″e″及最后″i″變成最大的語音特征。在450ms后,語音特征″u″變成可見,雖然相當短且不顯著。本發(fā)明經(jīng)由解體成基本的9個元音實現(xiàn)顯著的識別力。通過利用相對投射類似性以增進類似參考元音的間的識別力,甚至可實現(xiàn)更高的話語識別精確性。圖6(a)顯示對元音″i″(深色點)及元音″iu″(淺色點)的a(8)(″iu″,縱軸)及a(6)(″i″,橫軸)的投射類似性。對投射類似性單獨而言,識別力不大因為不同元音非常接近在一起,如圖6(a)所示。然而,當本發(fā)明的語音特征圖被利用用于″i″(p(6),深色陰影)及″iu″(p(8),淺色陰影)時,識別力被大大地提高,如由圖6(b)所示的元音的顯著分離可看出。
人類通過數(shù)種譜系部分識別來感知話語。本發(fā)明包含部分識別,因為如上文中方才述及,元音被解體成9個參考元音的區(qū)段。再者,當聆聽時,人類忽略許多無關(guān)的信息。本發(fā)明的9個參考元音用于摒棄許多無關(guān)的信息。因此,本發(fā)明具體化人類話語感知的特征以實現(xiàn)較高的話語識別。
本發(fā)明中的語音特征p(k)的識別力是通過標度因子λ的給定值來控制。如上述p(k)的方程式所示,若λ大時,相對投射類似性r(k,l)的總和被λ壓倒。圖7顯示被應(yīng)用于″i″(p(6),暗影)與″iu″(p(8),淡影)的本發(fā)明的語音特征方案上的效果,其識別力作為λ(隨著灰度的增加而具有較大數(shù)值的一個參數(shù))的一個函數(shù)而被大為增強。λ的較小值使分布分散遠離對角線(其代表無識別力),使得兩元音更能識別,從而改良識別精確性。然而,對λ而言,太小值將造成散亂,其難以通過多維量高斯函數(shù)在連續(xù)HMM(CHMM)識別器114(圖1)中形成模型,造成不良的識別精確性。因此,本發(fā)明有利地利用標度因子λ的值以最優(yōu)化識別力,同時限制散亂。
雖然上文中已完整說明特定的具體實施例,可使用不同的改良、替代性結(jié)構(gòu)及等效物。例如,雖然在本文中的例子顯示的是普通話中文,本發(fā)明的技術(shù)思想是適用于任何具有音節(jié)的語言。再者,任何技術(shù)皆可有利地使用。因此,上述的描述及說明不應(yīng)對通過后附權(quán)利要求定義的本發(fā)明的范圍造成限制。
權(quán)利要求
1.一種對以普通話中文的輸入矢量進行話語識別的方法,包括有步驟利用一組靜態(tài)普通話元音作為語音特征參考元音。
2.根據(jù)權(quán)利要求1的方法,其中該組靜態(tài)普通話元音具有九個組成部分。
3.根據(jù)權(quán)利要求2的方法,還包括有步驟計算在該組靜態(tài)普通話元音上的輸入矢量的投射類似性。
4.根據(jù)權(quán)利要求3的方法,還包括有步驟響應(yīng)于該投射類似性計算的最高值,從該組靜態(tài)普通話元音中選擇一候選元音。
5.根據(jù)權(quán)利要求2的方法,還包括有步驟計算在該組靜態(tài)普通話元音上的輸入矢量的相對投射類似性的步驟,語音特征映射是基于九個參考矢量。
6.根據(jù)權(quán)利要求5的方法,還包括有步驟響應(yīng)于該相對投射類似性計算的最高值,從該組靜態(tài)普通話元音中選擇一候選元音。
7.一種用于對以普通話中文的輸入矢量進行話語識別的方法,包括有步驟(a)選擇九個靜態(tài)參考普通話元音用作為語音特征參考元音;(b)計算在這些九個靜態(tài)普通話元音上的輸入矢量的投射類似性;(c)計算在這些九個靜態(tài)普通話元音上的輸入矢量的相對投射類似性;(d)從這些九個靜態(tài)普通話元音中選擇一組高投射類似性的元音;(e)從該組高投射類似性元音中選擇具有與輸入矢量有最高相對投射類似性的靜態(tài)普通話元音;及(f)若該組高投射類似性元音為零,則響應(yīng)于最高投射類似性計算,從這些九個靜態(tài)參考普通話元音中選擇一個元音
8.根據(jù)權(quán)利要求7的方法,還包括有步驟利用一定標因子來控制相對投射交叉耦合的程度,從而增加一語音特征的識別力。
9.一種用于映射一輸入話語頻譜矢量的語音特征映射器,其包含有用于存儲一組九個靜態(tài)普通話參考頻譜矢量的存儲器;處理裝置,耦接至該存儲裝置,用于計算在這些九個靜態(tài)普通話參考頻譜矢量上的輸入頻譜矢量的投射類似性;與選擇裝置,耦接至該處理裝置,用于響應(yīng)于由該處理裝置所計算的最高投射類似性數(shù)值,選擇這些九個靜態(tài)普通話參考頻譜矢量中的至少一個。
10.一種用于映射一輸入話語頻譜矢量的語音特征映射器,其包含有用于存儲一組九個靜態(tài)普通話參考頻譜矢量的存儲器;處理裝置,耦接至該存儲裝置,用于計算在這些九個靜態(tài)普通話參考頻譜矢量上的輸入頻譜矢量的相對投射類似性;及選擇裝置,耦接至該處理裝置,用于響應(yīng)于由該處理裝置所計算得的最高相對投射類似性值,選擇這些九個靜態(tài)普通話參考頻譜矢量中的至少一個。
11.一種用于映射一輸入話語頻譜矢量的語音特征映射器,其包含有用于存儲一組九個靜態(tài)普通話參考頻譜矢量的存儲器;處理裝置,耦接至該存儲裝置,用于計算在這些九個靜態(tài)普通話參考頻譜矢量上的輸入頻譜矢量的投射類似性以及相對投射類似性;及選擇裝置,耦接至該處理裝置,用于響應(yīng)于由該處理裝置所計算得的投射類似性以及相對投射類似性值,選擇這些九個靜態(tài)普通話參考頻譜矢量中的至少一個。
12.根據(jù)權(quán)利要求11的語音特征映射器,其中該處理裝置還利用一定標因子來控制相對投射交叉耦合的程度,從而增加語音特征的識別力。
全文摘要
可對普通話中文語言的輸入話語頻譜矢量進行精確話語識別的一種裝置及方法,其步驟包含有選擇一組九個靜態(tài)普通話元音供作為語音特征參考元音,計算在九個靜態(tài)普通話參考元音上的輸入矢量的投射與相對投射類似性,從這些九個靜態(tài)普通話元音中選出一組具高投射類似性的元音,從該組高投射類似性元音中,選擇其中具有與輸入矢量有最高相對投射類似性的靜態(tài)普通話元音,以及若該組高投射類似性元音為零的話,響應(yīng)于一個投射類似性的量測值,從這些九個靜態(tài)普通話元音中選擇一個元音。
文檔編號G10L15/00GK1400584SQ0112405
公開日2003年3月5日 申請日期2001年8月8日 優(yōu)先權(quán)日2001年8月8日
發(fā)明者卜令楷, 闕志達 申請人:韋爾博泰克公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1