亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng)的制作方法

文檔序號:2830746閱讀:541來源:國知局

專利名稱::基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及的是一種用于語音識別
技術(shù)領(lǐng)域
的系統(tǒng),具體是一種基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng)。技術(shù)背景目前大詞匯量連續(xù)語音識別系統(tǒng)日益向多模態(tài)多信息融合的方向發(fā)展,利用多種異類模型來減少語音識別系統(tǒng)的混淆度是當(dāng)前語音識別系統(tǒng)提高識別性能的一個重要手段。采用多種異類模型的一個特例是漢語語音識別系統(tǒng),漢語語音識別與英語語音識別的一個比較大的區(qū)別是漢語語言是一種帶調(diào)語言。在國家標(biāo)準(zhǔn)中規(guī)定中列出了常用漢字6763個。音節(jié)是漢語語音的自然單位,漢語中一個方塊字代表一個音節(jié)。漢語普通話中共有1282個的帶調(diào)音節(jié),而不帶調(diào)音節(jié)(即具有相同的聲-韻母組合,下文中稱為基本音節(jié))共有412個。這說明漢語中的每個音節(jié)都對應(yīng)一定的音調(diào),漢語普通話中一共有五種聲調(diào)陰平、陽平、上聲、去聲以及輕聲。對于同一個聲母和韻母構(gòu)成的音節(jié),其音調(diào)不同,則通常對應(yīng)的漢字也不同,因此聲調(diào)在漢語普通話中承擔(dān)著重要的構(gòu)字辨義的作用。也就是說,聲調(diào)模型提供了一種區(qū)分同音異字/詞的有效手段。尤其是在自然口語中,經(jīng)常會出現(xiàn)不符合文法、不連續(xù)或者語法混淆的詞句,這時候,聲調(diào)模型就能夠有效減少自然口語識別的困惑度。在漢語大詞匯連續(xù)語音識別系統(tǒng)中,利用聲調(diào)信息來提高連續(xù)語音識別系統(tǒng)性能,其中的一種途徑是先利用譜特征對連續(xù)語音進行隱馬爾可夫建模,稱為譜特征模型;利用聲調(diào)特征建立聲調(diào)模型。在識別過程中,先利用譜特征模型進行語音識別得到格(lattice)輸出,在lattice中的每條弧可以通過Viterbi(維特比)對齊獲得濁音段的起始及結(jié)束時間,對每個濁音段計算聲調(diào)得分。在格結(jié)構(gòu)基礎(chǔ)上對各種模型(譜特征模型、聲調(diào)模型)進行融合,在二次解碼過程來降低誤識率。經(jīng)對現(xiàn)有技術(shù)文獻的檢索發(fā)現(xiàn),LeiXin等人在《InternationalConferenceonSpeechandLanguageProceesing》(語音語言處理國際會議論文集)pp.1277-1280,Sep.2006發(fā)表"ImprovedToneModelingforMandarinBroadcastNewsSpeechRecognition"(漢語廣播新聞?wù)Z音識別中改進的聲調(diào)建模)以及WangHuanliang等人在《The5thInternationalSymposiumonChineseSpokenLanguageProcessing》(第五屆漢語口語語言處理國際會議)"ImprovedMandarinSpeechRecognitionbyLatticeRescoringwithEnhancedTonemodels",pp.445-443,2006.(利用改進的聲調(diào)模型提高漢語語音識別中l(wèi)attice解碼)中,采用的都是啟發(fā)式的方法,根據(jù)經(jīng)驗或者通過搜索的辦法選取全局的譜特征模型和聲調(diào)模型的權(quán)重進行異類模型融合,這種方法通常并不能夠得到最佳的連續(xù)語音識別效果,這是因為譜特征模型與聲調(diào)模型獨立訓(xùn)練,在連續(xù)語音識別過程中不能較好的匹配;在另一方面,全局的模型權(quán)重不能對具體的語音學(xué)/語義學(xué)情景建模。而且如果異類模型數(shù)量增大時,搜索空間也呈指數(shù)增長,也增大了人工選取的難度。
發(fā)明內(nèi)容本發(fā)明的目的在于針對現(xiàn)有系統(tǒng)的不足,提供一種基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng),該系統(tǒng)使得多種模型共同作用的語音識別系統(tǒng)中各類模型能夠更適合地互相匹配從而達到最優(yōu)的識別結(jié)果。本發(fā)明是通過以下技術(shù)方案實現(xiàn)的,本發(fā)明包括模型概率權(quán)重分配模塊、區(qū)分性模型概率權(quán)重訓(xùn)練模塊、模型概率權(quán)重平滑模塊和區(qū)分性融合的語音識別模塊,其中模型概率權(quán)重分配模塊負責(zé)對lattice每條弧所處的上下文語境產(chǎn)生上下文相關(guān)的模型概率權(quán)重集并進行初始化;區(qū)分性模型概率權(quán)重訓(xùn)練模塊接收初始化的模型概率權(quán)重集,產(chǎn)生前后向數(shù)據(jù),并利用最小音子錯誤準(zhǔn)則來區(qū)分性訓(xùn)練輸出異類模型得到最小音子錯誤累積量,根據(jù)最小音子錯誤累積量得到區(qū)分性的模型概率權(quán)重集;模型概率權(quán)重平滑模塊對輸入上下文相關(guān)的模型概率權(quán)重集之間進行平滑處理獲得平滑后的模型概率權(quán)重集;區(qū)分性融合的語音識別模塊利用平滑處理后的權(quán)重集進行語音識別輸出。所述的模型概率權(quán)重分配模塊,根據(jù)lattice語音學(xué)/語義學(xué)的上下文語境產(chǎn)生權(quán)重集,上下文語境包括當(dāng)前音節(jié)的帶調(diào)音節(jié)類型、聲母模型、韻母模型以及漢字詞的情景,模型概率權(quán)重分配模塊共產(chǎn)生四種權(quán)重集帶調(diào)音節(jié)相關(guān)權(quán)重集,對每個帶調(diào)音節(jié)賦予一對模型概率權(quán)重;韻母模型相關(guān)權(quán)重集,每個不同韻母三音子模型賦予一組模型概率權(quán)重;模型組合相關(guān)權(quán)重集,針對每個聲母-韻母三音子模型組合賦予一對模型概率權(quán)重;詞相關(guān)權(quán)重集,針對每個漢語整詞中的每個字對應(yīng)的每個帶調(diào)音節(jié)賦予一對模型概率權(quán)重。所述區(qū)分性模型概率權(quán)重訓(xùn)練模塊,包括前后向數(shù)據(jù)計算子模塊、最小音子錯誤累積量計算子模塊、模型概率權(quán)重更新子模塊,其中前后向數(shù)據(jù)計算子模塊根據(jù)初始權(quán)重集的輸入,進行l(wèi)attice的前向后向計算,包括對每條弧《從起始節(jié)點每條弧到達該條弧頭節(jié)點的所有路徑的前向概率尸(《),從終止節(jié)點到達該條弧尾節(jié)點的所有路徑的后向概率P/《);從起始節(jié)點每條弧到達該條弧頭節(jié)點的所有路徑的平均前向正確率vi(W,從終止節(jié)點到達該條弧尾節(jié)點的所有路徑的平均后向正確率4^(g);最小音子錯誤累積量計算子模塊利用前后向計算子模塊的輸出尸&)和尸/W得到通過每條弧的后驗概率^,利用A(《)和4e(")得到通過每條弧的所有路徑的平均正確度c(W,并根據(jù)上述數(shù)據(jù)得到最小音子錯誤累加弧數(shù)據(jù)^MPE,《PE=^(C(《)—Cflvg),其中c呵為lattice中所有路徑的平均正確度;模型概率權(quán)重更新子模塊利用最小音子錯誤累積量計算子模塊的輸出&MPE,迭代更新模型概率權(quán)重,具體如下、'—Z(Og畫)L化,)其中《"是更新得到的模型概率權(quán)重,/7,w是前一次迭代的模型概率權(quán)重,/表示屬于弧《的第/個異類模型;m表示弧《的所屬的第m組模型概率權(quán)重;并滿足如下條件/7,,>0,"m,,〉0,Z77m,,=1。^是減少概率動態(tài)范圍的權(quán)衡常數(shù);10g((9,l《)是模型《(譜特征模型或聲調(diào)模型)的對數(shù)概率,(9,是模型《的觀察值(譜特征或者聲調(diào)特征),C為經(jīng)驗選取的平滑控制常數(shù)。區(qū)分性模型概率權(quán)重訓(xùn)練模塊重復(fù)上述三個模塊過程進行迭代更新直至目標(biāo)函數(shù)收斂,并將最終的7二作為輸出。所述模型概率權(quán)重平滑模塊,對于區(qū)分性模型概率權(quán)重訓(xùn)練模塊輸出的四種上下文相關(guān)的模型概率權(quán)重集之間進行平滑來克服權(quán)重訓(xùn)練容易過擬合問題,具體為上下文相關(guān)的模型概率權(quán)重集隨著參數(shù)的增多,對訓(xùn)練集的識別率提高的同時,對測試集識別率反而下降,模型概率權(quán)重平滑模塊采用區(qū)分性模型概率權(quán)重訓(xùn)練模塊得到的四種模型概率權(quán)重集中的兩種或多種之間進行插值來產(chǎn)生平滑的模型權(quán)重,表達式為%m。。th=/^FMD+(l—P>7MCD,其中^翻th是經(jīng)過平滑得到的權(quán)重,/"為平滑因子,/7FMD是韻母模型模型相關(guān)模型權(quán)重,7MCD是模型組合相關(guān)模型權(quán)重。所述區(qū)分性融合的語音識別模塊,利用含有譜特征訓(xùn)練的譜特征模型對識別數(shù)據(jù)識別產(chǎn)生lattice,對lattice中的每條弧進行譜特征模型、聲調(diào)模型的概率計算,根據(jù)lattice中每條弧的聲學(xué)/語義上下文,選取區(qū)分性模型概率權(quán)重訓(xùn)練模塊產(chǎn)生的區(qū)分性權(quán)重集當(dāng)中的權(quán)重,由模型概率權(quán)重平滑模塊對權(quán)中進行平滑處理,并對譜特征模型、聲調(diào)模型得分進行加權(quán)獲得總的聲學(xué)得分,最后根據(jù)Viterbi(維特比)方法從lattice找到概率最高的路徑作為輸出結(jié)果。所述區(qū)分性融合的語音識別模塊,其對譜特征模型、聲調(diào)模型得分進行加權(quán)獲得總的聲學(xué)得分,具體為10gi^X["logWl《)]+《20log《1《)]+1,流+胖。)其中-log尸(g)是lattice中第《條弧的聯(lián)合聲學(xué)得分,1ogM《l《)是該條弧的譜特征對數(shù)概率,《為該條弧對應(yīng)的譜特征觀察序列,《為該條弧對應(yīng)的譜特征模型;logp(C《|《)為來自第《條弧的聲調(diào)模型《產(chǎn)生聲調(diào)特征(序列)Q[時的對數(shù)概率,《和P為預(yù)先設(shè)定的全局譜特征模型及聲調(diào)模型權(quán)重,bgd是語言模型對數(shù)概率,『尸為詞懲罰值,"、-禾Q,戶根據(jù)經(jīng)驗選取,77"和7"即為平滑權(quán)重集中的第w組模型概率權(quán)重,其中/=1,2。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果本發(fā)明根據(jù)漢語語音識別中異類模型下語音系統(tǒng)中的區(qū)分性信息,利用區(qū)分性的權(quán)重訓(xùn)練獲得多種模型之間的最佳匹配效果,采用上下文相關(guān)模型概率權(quán)重來捕捉識別過程中的語音學(xué)、語音學(xué)情景。在漢語聲調(diào)模型的集成過程中可以獲得顯著的識別率提升,帶調(diào)音節(jié)以及漢字輸出兩種識別結(jié)果表明,基于區(qū)分性模型權(quán)重較全局模型權(quán)重分別得到了9.5%以及4.7%的相對誤識率下降。大詞匯語音識別系統(tǒng)識別結(jié)果表明權(quán)重平滑能夠克服由于可訓(xùn)練權(quán)重增多時帶來的過擬合問題,從而進一步改進系統(tǒng)的識別性能。本發(fā)明是漢語大詞匯量連續(xù)語音識別系統(tǒng)推向?qū)嵱玫囊豁楆P(guān)鍵技術(shù)。圖l是本發(fā)明的系統(tǒng)結(jié)構(gòu)框圖。具體實施方式下面對本發(fā)明的實施例作詳細說明本實施例在以本發(fā)明技術(shù)方案為前提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。本實施例基于28000個命令詞的漢語大詞匯量非特定人語音識別系統(tǒng)在帶調(diào)音節(jié)輸出和漢字輸出識別系統(tǒng)下作進一步的說明。如圖1所示,本實施例包括模型概率權(quán)重分配模塊、區(qū)分性模型概率權(quán)重訓(xùn)練模塊、模型概率權(quán)重平滑模塊和區(qū)分性融合的語音識別模塊,其中-模型概率權(quán)重分配模塊,負責(zé)對lattice每條弧所處的上下文語境產(chǎn)生上下文相關(guān)的模型概率權(quán)重集并進行初始化;區(qū)分性模型概率權(quán)重訓(xùn)練模塊接收初始化的模型概率權(quán)重集,產(chǎn)生前后向數(shù)據(jù),并利用最小音子錯誤準(zhǔn)則來區(qū)分性訓(xùn)練輸出異類模型得到最小音子錯誤累積量,根據(jù)最小音子錯誤累積量得到區(qū)分性的模型概率權(quán)重集;模型概率權(quán)重平滑模塊對輸入上下文相關(guān)的模型概率權(quán)重集之間進行平滑處理獲得平滑后的模型概率權(quán)重集;區(qū)分性融合的語音識別模塊利用平滑處理后的權(quán)重集進行語音識別輸出。所述模型概率權(quán)重分配模塊,對lattice每條弧所處的上下文語境分別產(chǎn)生t下文相關(guān)的模型概率權(quán)重集并初始化,本實施例中上下文語境包括當(dāng)前音節(jié)的帶調(diào)音節(jié)類型、韻母模型、模型組合以及漢字詞的情景;表1顯示了一個漢語四字詞"星星點點"的上下文相關(guān)的三音子(triphone)建模方法(設(shè)前后均為靜音段)。每個漢字的發(fā)音是一個帶調(diào)音節(jié),每個帶調(diào)音節(jié)分為聲母和韻母兩個部分。根據(jù)上下文的不同,每個部分用一個上下文相關(guān)的三音子模型表示。模型概率權(quán)重分配模塊所述的四種模型相關(guān)權(quán)重分配方法距離如對于漢字"星",其帶調(diào)音節(jié)為[xingl],帶調(diào)音節(jié)權(quán)重策略對第一個"星"與第二個"星"屬于同一帶調(diào)音節(jié),賦予同一對模型權(quán)重。如先后兩個"星"的韻母模型分別為[x-ingl+x]和[x-ingl+d]。在韻母模型相關(guān)權(quán)重策略中,兩個字發(fā)音相同,由于用不同的上下文相關(guān)模型建模,所以分別賦予不同的模型權(quán)重。這種權(quán)重策略可對當(dāng)前音節(jié)的聲-韻母類型和后繼音節(jié)的聲母類型同時進行建模;如先后兩個"星"字的模型組合分別為[i1-x+inglx-ingl+x]和[ing1-x+inglx-ingl+d],為兩個不同的三音子模型組合,在模型組合中分別賦予一對模型權(quán)重;如對于"星星點點"這個詞當(dāng)中的每個帶調(diào)音節(jié)中賦予一對譜特征模型、聲調(diào)模型權(quán)重,來對漢語整詞內(nèi)聲調(diào)協(xié)同發(fā)音的變化進行建模。表1上下文相關(guān)模型權(quán)重分配實例<table>tableseeoriginaldocumentpage10</column></row><table>所述區(qū)分性模型概率權(quán)重訓(xùn)練模塊,利用MPE準(zhǔn)則來獲得異類模型在識別過程進行融合時的模型概率權(quán)重,包含前后向計算子模塊、最小音子錯誤累積量計算子模塊和模型概率權(quán)重更新子模塊,其中前后向數(shù)據(jù)計算子模塊輸出計算前向-后向數(shù)據(jù)對每條???,通過所有前驅(qū)節(jié)點的前向概率乘以鏈接前驅(qū)節(jié)點與g的弧頭節(jié)點的弧的概率并求和,得到從lattice起始節(jié)點到該條弧弧頭節(jié)點所有路徑的前向概率A(g);通過所有的后繼節(jié)點的后向概率乘以鏈接后繼節(jié)點與《的弧尾節(jié)點的弧的概率并求和,得到終止節(jié)點該條弧的后向概率A(《);通過所有前驅(qū)節(jié)點的正確度加上鏈接前驅(qū)節(jié)點至當(dāng)前節(jié)點的弧的正確度并由這條弧的后驗概率加權(quán)平均,得到從起始節(jié)點到達弧頭節(jié)點所有路徑的前向正確度4(W通過所有后繼節(jié)點的正確度加上鏈接后繼節(jié)點至當(dāng)前節(jié)點的弧的正確度并由這條弧的后驗概率加權(quán)平均,得到從終止節(jié)點到達弧尾節(jié)點所有路徑的后向正確度4^(《)。最小音子錯誤累加數(shù)據(jù)計算子模塊,利用前向概率《(《)和后向概率尸/《),計算包含有第《條弧的所有路徑的后驗概率;V^=尸(《)^(《)/尸(0),戶(O)是lattice中所有路徑的總概率,其值取為起始節(jié)點的后向概率尸/《);計算通過包含有第g條弧的所有句子假設(shè)的平均正確度C(g):C(W=4(《)+4s(《)+Jcc(《),其中J"")是第《條弧與標(biāo)記文本對照得到的正確度;對每條弧《,根據(jù)起始節(jié)點的后向正確度或終止節(jié)點的前向正確度計算lattice中所有路徑的平均正確度c^;根據(jù)公式;^PE^;^(c(《)-Cw),計算出最小音子錯誤累加弧數(shù)據(jù)^MPE。權(quán)重迭代更新子模塊的輸入為最小音子錯誤累加數(shù)據(jù)計算子模塊中的MPE,得到區(qū)分性訓(xùn)練的模型概率權(quán)重,其表達式具體如下一nog曙)"氣)其中《,,是更新得到的模型概率權(quán)重,/^,是前一次迭代的模型概率權(quán)重,Z表示屬于弧《的第/個異類模型;m表示弧《的所屬的第m組模型概率權(quán)重;并滿足如下條件7,,,>0,1,>0,2>,。,,=1。^是減少概率動態(tài)范圍的權(quán)衡常數(shù);10g(0,l《)是模型《(譜特征模型或聲調(diào)模型)的對數(shù)概率,O,是模型g.的觀察值(譜特征或者聲調(diào)特征),C為經(jīng)驗選取的平滑控制常數(shù),平滑常數(shù)的選取方法為c《,l"ru。g曙兒,其中五為經(jīng)驗選取的平滑控制常數(shù),選取部分校訓(xùn)練數(shù)據(jù)作為校驗數(shù)據(jù),通過評估校驗數(shù)據(jù)的最小音子錯誤目標(biāo)函數(shù)的收斂速度,來經(jīng)驗性確定平滑控制常數(shù)五的選取,實例中選£=100可以達到最佳識別結(jié)果。K值在實例中經(jīng)驗選取為15,重復(fù)上述模塊過程更新模型權(quán)值直至目標(biāo)函數(shù)收斂為止。所述模型概率權(quán)重平滑模塊,接收區(qū)分性模型概率權(quán)重訓(xùn)練模塊得到的四種上下文相關(guān)權(quán)重集的輸出,對各種上下文相關(guān)模型概率權(quán)重集之間進行平滑獲得平滑的模型概率權(quán)重集,如區(qū)分性模型概率權(quán)重訓(xùn)練模塊得到韻母模型相關(guān)和模型組合相關(guān)的權(quán)重之后,將兩種情況下的權(quán)重按照公式(2)按比例相加來產(chǎn)生平滑的模型權(quán)重,其中平滑因子p的大小在[O,l]區(qū)間通過校驗數(shù)據(jù)目標(biāo)函數(shù)經(jīng)驗值選定,在實施例中選取/=0.35達到最優(yōu)結(jié)果。模型概率權(quán)重平滑模塊平滑后的權(quán)重集輸出給區(qū)分性融合的識別模塊。所述區(qū)分性融合的語音識別模塊,利用含有譜特征訓(xùn)練的譜特征模型對識別數(shù)據(jù)識別產(chǎn)生lattice,對lattice中的每條弧進行譜特征模型、聲調(diào)模型的概率計算,根據(jù)lattice中每條弧的聲學(xué)/語義上下文,選取區(qū)分性模型概率權(quán)重訓(xùn)練模塊產(chǎn)生的區(qū)分性權(quán)重集當(dāng)中的權(quán)重,由模型概率權(quán)重平滑模塊對權(quán)中進行平滑處理,并對譜特征模型、聲調(diào)模型得分進行加權(quán)獲得總的聲學(xué)得分,最后根據(jù)Viterbi(維特比)方法從lattice找到概率最高的路徑作為輸出結(jié)果。加權(quán)獲得總的聲學(xué)得分,其中,通過校驗集選定模型集成公式(3)中的全局譜特征模型概率權(quán)值",聲調(diào)特征模型概率權(quán)值P,和詞懲罰值WP。本實施例中,帶調(diào)音節(jié)輸出任務(wù)下,全局譜特征模型概率權(quán)重、聲調(diào)模型概率權(quán)重以及詞懲罰值分別選取為"=1,-=4.5,WP=35;漢字輸出任務(wù)中選取根據(jù)這些權(quán)重利用模型集成公式(3)來計算每條弧的總得分;Viterbi方法如下首先,對測試數(shù)據(jù)的lattice進行如同區(qū)分性模型概率權(quán)重訓(xùn)練模塊中前后向計算字模塊中的前向概率的計算;然后,從lattice的終止節(jié)點開始,尋找最有可能通向該節(jié)點的弧(即選擇一條弧該條弧甜驅(qū)節(jié)點的前向概率與該條弧的模型概率之和最大);其次,對該條弧的前驅(qū)節(jié)點做上述計算直至lattice的起始節(jié)點;最后,將該過程中經(jīng)過的所有弧的路徑作為輸出結(jié)果。下面給出系統(tǒng)在本實施例中在帶調(diào)音節(jié)輸出和漢字輸出任務(wù)下的具體識別結(jié)果。表2給出了連續(xù)語音帶調(diào)音節(jié)輸出識別結(jié)果,首先給出傳統(tǒng)系統(tǒng)下只使用全局聲調(diào)模型權(quán)重將聲調(diào)模型集成的識別結(jié)果。給出使用不同譜特征模型與聲調(diào)模型進行組合的識別結(jié)果。表1中MSR(微軟研究院)基線采用最大似然估計的譜特征模型,MPE(最小音子錯誤)是采用最小音子方法區(qū)分性訓(xùn)練的譜特征模型。結(jié)果表明將聲調(diào)模型加入連續(xù)語音識別解碼過程中(采用全局的模型權(quán)重),誤識別率有了顯著下降,分別從微軟基線系統(tǒng)的48.7%降低至41.3%以及從最小音子錯誤的40.9%降低至34.8%。表2帶調(diào)音節(jié)輸出連續(xù)語音識別結(jié)果<table>tableseeoriginaldocumentpage13</column></row><table>表2后半部分給出使用本系統(tǒng)區(qū)分性模型權(quán)重訓(xùn)練的識別結(jié)果。譜特征模型全部采用最小音子錯誤譜特征模型。在帶調(diào)音節(jié)識別任務(wù)中,僅測試前三種權(quán)重集。各模型權(quán)重策略的初值均初始化自全局模型權(quán)重,從表1中可以看出采用三種權(quán)重集(帶調(diào)音節(jié)相關(guān)、韻母模型相關(guān)、模型組合相關(guān))帶調(diào)音節(jié)誤識率從僅使用全局模型權(quán)重的34.8%分別顯著降低至34.1%、32.9%以及32.5%。這表明系統(tǒng)提出的區(qū)分性模型概率權(quán)重訓(xùn)練模塊及模型概率權(quán)重分配模塊能夠有效提高識別系統(tǒng)的性能。在區(qū)分性融合的語音識別模塊中遇到?jīng)]有訓(xùn)練過的模型權(quán)重則賦予缺省的全局權(quán)重。韻母模型相關(guān)權(quán)重集較帶調(diào)音節(jié)相關(guān)權(quán)重集帶來了1.2%的性能改進,系統(tǒng)根據(jù)前后聲母類型的影響分配權(quán)重會得到明顯的識別率改進。另一方面,采用模型組合相關(guān)策略較采用韻母相關(guān)策略獲得的模型權(quán)重取得了誤識率一致性下降(0.4%)。通過模型概率權(quán)重平滑模塊,帶調(diào)音節(jié)誤識率為31.5%,較單采用模型組合相關(guān)權(quán)重得到近1.0%的進一步性能提升。表明模型概率權(quán)重平滑模塊得到的平滑權(quán)重集可以減少訓(xùn)練過擬合的現(xiàn)象并進一步提高系統(tǒng)識別結(jié)果。對于漢字輸出識別為先利用譜特征模型與語言模型識別出基于漢字詞的lattice,然后在lattice的每條弧計算聲調(diào)模型得分進行二次解碼的到漢字輸出序列。語言模型為訓(xùn)練自《人民日報》1998年1-6月的50M字漢語文本語料統(tǒng)計的二元語言模型(bigram),識別字典共計2.8萬詞。表3給出了漢字輸出的識別結(jié)果。其中MPE譜特征模型在從最大似然的譜特征模型的基礎(chǔ)上,在漢字詞的lattice上訓(xùn)練得出。表3連續(xù)語音漢字輸出識別結(jié)果<table>tableseeoriginaldocumentpage14</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table>從漢字輸出結(jié)果可以看出,對于微軟基線譜特征模型(MSR基線)與MPE譜特征模型,加入聲調(diào)模型并使用全局模型權(quán)重,針對最大似然與最小音子錯誤訓(xùn)練的譜特征模型,字誤識率有了顯著的降低,分別從16.0%以及14.8%降低至13.9%以及12.9%,表明聲調(diào)信息的加入能夠有效的提高系統(tǒng)連續(xù)語音字輸出識別任務(wù)的識別性能。采用區(qū)分性的訓(xùn)練模型權(quán)重聲調(diào)模型集成顯著地降低了漢字輸出任務(wù)下的誤識率,其中詞相關(guān)的權(quán)重策略能夠獲得更好的識別結(jié)果,通過將韻母模型相關(guān)權(quán)重與詞相關(guān)權(quán)重之間進行平滑,得到系統(tǒng)字誤識率為12.3%。較采用全局模型權(quán)重方法獲得0.6%的性能提升。帶調(diào)音節(jié)以及漢字輸出兩種識別結(jié)果表明,本系統(tǒng)權(quán)重傳統(tǒng)系統(tǒng)別得到了9.5%以及4.7%的相對誤識率下降。這表明基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng)獲得最佳的識別效果的有效性。權(quán)利要求1、一種基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng),其特征在于,包括模型概率權(quán)重分配模塊、區(qū)分性模型概率權(quán)重訓(xùn)練模塊、模型概率權(quán)重平滑模塊和區(qū)分性融合的語音識別模塊,其中模型概率權(quán)重分配模塊負責(zé)對lattice每條弧所處的上下文語境產(chǎn)生上下文相關(guān)的模型概率權(quán)重集并進行初始化;區(qū)分性模型概率權(quán)重訓(xùn)練模塊接收初始化的模型概率權(quán)重集,產(chǎn)生前后向數(shù)據(jù),并利用最小音子錯誤準(zhǔn)則來區(qū)分性訓(xùn)練輸出異類模型得到最小音子錯誤累積量,根據(jù)最小音子錯誤累積量得到區(qū)分性的模型概率權(quán)重集;模型概率權(quán)重平滑模塊對輸入上下文相關(guān)的模型概率權(quán)重集之間進行平滑處理獲得平滑后的模型概率權(quán)重集;區(qū)分性融合的語音識別模塊利用平滑處理后的權(quán)重集進行語音識別輸出。2、根據(jù)權(quán)利要求1所述基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng),其特征是,所述的模型概率權(quán)重分配模塊,根據(jù)lattice語音學(xué)/語義學(xué)的上下文語境產(chǎn)生權(quán)重集,上下文語境包括當(dāng)前音節(jié)的帶調(diào)音節(jié)類型、聲母模型、韻母模型以及漢字詞的情景,模型概率權(quán)重分配模塊共產(chǎn)生四種權(quán)重集帶調(diào)音節(jié)相關(guān)權(quán)重集,對每個帶調(diào)音節(jié)賦予一對模型概率權(quán)重;韻母模型相關(guān)權(quán)重集,每個不同韻母三音子模型賦予一組模型概率權(quán)重;模型組合相關(guān)權(quán)重集,針對每個聲母-韻母三音子模型組合賦予一對模型概率權(quán)重;詞相關(guān)權(quán)重集,針對每個漢語整詞中的每個字對應(yīng)的每個帶調(diào)音節(jié)賦予一對模型概率權(quán)重。3、根據(jù)權(quán)利要求1所述基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng),其特征是,所述區(qū)分性模型概率權(quán)重訓(xùn)練模塊,包括甜后向數(shù)據(jù)計算子模塊、最小音子錯誤累積量計算子模塊、模型概率權(quán)重更新子模塊,其中甜后向數(shù)據(jù)計算子模塊根據(jù)初始權(quán)重集的輸入,進行l(wèi)attice的前向后向計算,包括對每條弧《從起始節(jié)點每條弧到達該條弧頭節(jié)點的所有路徑的前向概率從終止節(jié)點到達該條弧尾節(jié)點的所有路徑的后向概率^(《);從起始節(jié)點每條弧到達該條弧頭節(jié)點的所有路徑的T均前向正確率J。(《),從終止節(jié)點到達該條弧尾節(jié)點的所有路徑的平均后向正確率4^W;最小音子錯誤累積量計算子模塊利用前后向計算子模塊的輸出尸a(g)和尸/W得到通過每條弧的后驗概率,利用4^(g)和4(《)得到通過每條弧的所有路徑的平均正確度C(W,并根據(jù)上述數(shù)據(jù)得到最小音子錯誤累加弧數(shù)據(jù)&mpe,《pe:r"c(《)-c^),其中c呵為lattice中所有路徑的平均正確度;模型概率權(quán)重更新子模塊利用最小音子錯誤累積量計算子模塊的輸出^mpe,迭代更新模型概率權(quán)重,具體如下,_log(QI《A+"附,'_Z(Og曙)L+)其中T7二,是更新得到的模型概率權(quán)重,7V,是前一次迭代的模型概率權(quán)重,z'表示屬于弧《的第/個異類模型;m表示弧《的所屬的第m組模型概率權(quán)重;并滿足如下條件7,,>0,/^>0,;7^==1,K是減少概率動態(tài)范圍的權(quán)衡常數(shù);10g(0,^)是模型《的對數(shù)概率,0,是模型《的觀察值,C為經(jīng)驗選取的平滑控制常數(shù),區(qū)分性模型概率權(quán)重訓(xùn)練模塊重復(fù)上述三個模塊過程進行迭代更新直至目標(biāo)函數(shù)收斂,并將最終的;;二,作為輸出。4、根據(jù)權(quán)利要求1所述基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng),其特征是,所述模型概率權(quán)重平滑模塊,對于區(qū)分性模型概率權(quán)重訓(xùn)練模塊輸出的四種上下文相關(guān)的模型概率權(quán)重集之間進行平滑來克服權(quán)重訓(xùn)練容易過擬合問題,具體為上下文相關(guān)的模型概率權(quán)重集隨著參數(shù)的增多,對訓(xùn)練集的識別率提高的同時,對測試集識別率反而下降,模型概率權(quán)重平滑模塊采用區(qū)分性模型概率權(quán)重訓(xùn)練模塊得到的四種模型概率權(quán)重集中的兩種或多種之間進行插值來產(chǎn)生平滑的模型權(quán)重,表達式為%m。。th=^7FMD+(l—P>7mcd,其中^m。。th是經(jīng)過平滑得到的權(quán)重,r為平滑因子,7mD是韻母模型模型相關(guān)模型權(quán)重,7mcd是模型組合相關(guān)模型權(quán)重。5、根據(jù)權(quán)利要求1所述基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng),其特征是,所述區(qū)分性融合的語音識別模塊,利用含有譜特征訓(xùn)練的譜特征模型對識別數(shù)據(jù)識別產(chǎn)生lattice,對lattice中的每條弧進行譜特征模型、聲調(diào)模型的概率計算,根據(jù)lattice中每條弧的聲學(xué)/語義上下文,選取區(qū)分性模型概率權(quán)重訓(xùn)練模塊產(chǎn)生的區(qū)分性權(quán)重集當(dāng)中的權(quán)重,由模型概率權(quán)重平滑模塊對權(quán)中進行平滑處理,并對譜特征模型、聲調(diào)模型得分進行加權(quán)獲得總的聲學(xué)得分,最后根據(jù)維特比方法從lattice找到概率最高的路徑作為輸出結(jié)果。6、根據(jù)權(quán)利要求1所述基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng),其特征是,所述區(qū)分性融合的語音識別模塊,其對譜特征模型、聲調(diào)模型得分進行加權(quán)獲得總的聲學(xué)得分,具體為-1og/^)《["logp(《1《)X[淘《I《)]+l。g尸說+肝其中1ogP(《)是lattice中第《條弧的聯(lián)合聲學(xué)得分,logp(《I《)是該條弧的譜特征對數(shù)概率,《為該條弧對應(yīng)的譜特征觀察序列,《為該條弧對應(yīng)的譜特征模型;logp(6>:|《)為來自第《條弧的聲調(diào)模型《產(chǎn)生聲調(diào)特征(序列)o/時的對數(shù)概率,《和/為預(yù)先設(shè)定的全局譜特征模型及聲調(diào)模型權(quán)重,log/^是語言模型對數(shù)概率,『P為詞懲罰值,"、y5和『P根據(jù)經(jīng)驗選取,?7乙和《,2即為平滑權(quán)重集中的第w組模型概率權(quán)重《,,,其中/=1,2。全文摘要一種語音識別
技術(shù)領(lǐng)域
的基于異類模型區(qū)分性融合的漢語語音識別系統(tǒng),包括模型概率權(quán)重分配模塊、區(qū)分性模型概率權(quán)重訓(xùn)練模塊、模型概率權(quán)重平滑模塊和區(qū)分性融合的語音識別模塊,模型概率權(quán)重分配模塊負責(zé)對lattice每條弧所處的上下文語境產(chǎn)生相關(guān)的模型概率權(quán)重集并進行初始化;區(qū)分性模型概率權(quán)重訓(xùn)練模塊利用最小音子錯誤準(zhǔn)則來區(qū)分性訓(xùn)練輸出異類模型得到最小音子錯誤累積量,根據(jù)最小音子錯誤累積量得到區(qū)分性的模型概率權(quán)重集;模型概率權(quán)重平滑模塊對輸入上下文相關(guān)的模型概率權(quán)重集之間進行平滑處理;區(qū)分性融合的語音識別模塊利用平滑處理后的權(quán)重集進行語音識別輸出。本發(fā)明能夠降低語音識別的相對誤識率。文檔編號G10L15/08GK101334998SQ20081004146公開日2008年12月31日申請日期2008年8月7日優(yōu)先權(quán)日2008年8月7日發(fā)明者杰朱,浩黃申請人:上海交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1