專利名稱:一種錯誤自感知的聲調發(fā)音學習方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及計算機語音信號處理領域,尤其涉及在計算機輔助的口語語 言學習中,通過改進的反饋機制實現(xiàn)錯誤自感知的聲調發(fā)音學習的方法和系 統(tǒng)。
聲調是有調語言(如漢語和泰語)的重要組成部分,具有辨詞表意和傳 達情感的作用。如果聲調發(fā)音不準,那么會導致語言交流的困難。因此,聲 調通常是衡量口語語言能力的重要指標。對于非母語學習者來說,聲調發(fā)音 是有調語言的口語學習中的最大障礙之一。
計算機輔助的口語學習為語言學習提供了一個有效的途徑,并且現(xiàn)在已 被越來越多的學習者所接受。計算機輔助的口語學習最重要的一個特征就是 交互能力,即能夠為學習者提供有價值的反饋信息,包括發(fā)音評價和發(fā)音指 導。
巳公開的專利文獻,如公開號為CN101383103和CN1815522的專利等, 都涉及了對聲調發(fā)音進行評估和指導的方法,但這類方法對聲調發(fā)音的指導 方式主要是首先總結聲調發(fā)音規(guī)則,然后根據(jù)聲調發(fā)音錯誤給出確定的改進 建議。這種預先設定好的指導建議有三個局限性 一、指導建議是抽象的, 不同學習者對建議的理解不同;二、聲調主要由聲帶振動頻率產生,難以主 觀直接控制;三、建議的普適性和具體性(針對不同的學習者和學習內容) 是矛盾的,因此學習者從指導建議中得到的幫助非常有限。除了發(fā)音指導建 議之外,這些系統(tǒng)也能提供標準聲調發(fā)音,但對這種發(fā)音對用戶來說可能是 陌生的,有時和用戶的聲音相差甚遠,用戶難以準確模仿。
已公開專利CN101315733中涉及了聲調的識別和后驗概率計算。為了 進行聲調識別,它在語音識別系統(tǒng)基礎上進行語音數(shù)據(jù)的聲韻母切分和限制 聲韻母邊界的聲調的識別;根據(jù)切分和限制邊界識別的結果計算聲調后驗概 率。這種方法的局限性就是 一、聲調識別和后驗概率計算嚴重依賴于聲韻 母邊界,如果學習者發(fā)音不準,語音識別得到的聲韻母邊界就不可靠,這對 于非母語學習者尤其顯著;二、對于多音節(jié)連續(xù)語音的聲調發(fā)音學習來說, 聲韻母邊界的準確確定比較困難,尤其是自然口語的聲調發(fā)音學習。
已公開的涉及聲調發(fā)音學習的現(xiàn)有技術,反饋方式單一,指導信息抽象,還有如下不足 一、難以支持對連續(xù)語音的聲調進行準確評分,這是一項重要的功能缺失;二、對于非母語學習者來說,來自計算機的錯誤提示和改進建議是教條的,難以提供感性認識,會導致對建議的理解偏差,而對于改進沒有量化感覺。
現(xiàn)有的聲調發(fā)音學習系統(tǒng)所能提供的反饋信息是抽象的,不豐富的,難以錯誤自感知的。對學習者來說,標準聲調的發(fā)音示例是陌生的,難以和其實際發(fā)音進行對比來發(fā)現(xiàn)聲調錯誤,并且也是難以模仿的。在聲調曲線繪制方面,標準4聲調曲線過于簡單,攜帶的指導信息有限,難以反映實際聲調發(fā)音質量;而繪制實際聲調的基頻軌跡又過于粗糙、復雜,學習者難以發(fā)現(xiàn)確切的發(fā)音錯誤和指導?,F(xiàn)有聲調發(fā)音學習系統(tǒng)對學習者來說難以啟發(fā)式地誘導用戶進行學習,可能導致學習者一味模仿標準的發(fā)音而無法從與該系統(tǒng)的互動中在感性上得到準確、直觀、豐富的指導信息,其性能是不完善的。因此,開發(fā)一種具有立體的全方位的錯誤反饋能力的聲調發(fā)音學習方法和系統(tǒng)是非常必要的,可以提供形象、直觀、娛樂的反饋信息,具有錯誤自感知能力。
發(fā)明內容
本發(fā)明要解決的技術問題是提供一種具有錯誤自感知功能的聲調發(fā)音學習方法和系統(tǒng),具有綜合的、立體的學習反饋機制,能為學習者提供形象、直觀、娛樂的反饋信息,使得學習者可以明確感知自己的聲調發(fā)音錯誤和正確的聲調發(fā)音,從而啟發(fā)式地引導學習者有目標地校正自己的聲調發(fā)音,提高聲調發(fā)音學習的效率。
本發(fā)明的技術方案是 一種錯誤自感知的聲調發(fā)音學習方法,包括如下步驟-
歩驟Sl:首先建立標準發(fā)音語音庫,訓練聲調模型和音素模型,得到標準上下文相關的三元聲調模型和語譜音素模型;
歩驟S2:從學習者的語音中提取聲學特征,包括語音頻譜特征和聲調特征,并對聲調特征進行后處理;
歩驟S3:根據(jù)標準聲調模型和音素模型,利用基于隱馬爾可夫模型(Hidden Markov Model, HMM)的上下文相關的三元聲調模型計算反映聲調質量的評分參數(shù),得到聲調評價得分、聲調后驗概率;歩驟S4:基于源—濾波器模型合成具有標準目標聲調和學習者語音頻譜特征的新語音,并反饋給學習者;
歩驟S5:采用聲調后驗概率加權平均的二次函數(shù)繪制聲調曲線,并將標準聲調曲線和實際發(fā)音的聲調曲線反饋給學習者。
本發(fā)明還提出了一種錯誤自感知的聲調發(fā)音學習系統(tǒng),包括
模型訓練模塊2,建立標準發(fā)音語音庫,訓練聲調模型和音素模型,得到標準上下文相關的三元聲調模型和音素模型;
前端處理模塊l,從學習者的語音中提取聲學特征,包括語音頻譜特征和聲調特征,并對聲調特征進行后處理;
評價參數(shù)計算模塊3,根據(jù)模型訓練模塊2得到的標準聲調模型和音素模型,利用基于隱馬爾可夫模型的上下文相關的三元聲調模型計算反映聲調質量的評分參數(shù),得到從前端處理模塊l提取的學習者語音的聲調評價得分、聲調后驗概率;
反饋模塊4,基于源一濾波器模型合成具有標準目標聲調和學習者語音頻譜特征的語音,采用評價參數(shù)計算模塊3得到的聲調后驗概率加權平均的二次函數(shù)繪制聲調曲線,將標準目標聲調語音、標準聲調曲線、實際發(fā)音的聲調曲線和聲調發(fā)音量化評分及錯誤提示反饋給學習者。
本發(fā)明的錯誤自感知的聲調發(fā)音學習方法更詳細的技術方案是所述步驟S4中采用基于源—濾波器模型生成標準目標聲調語音,保留學習者自身語言特征,并不改變語音內容,合成的目標聲調語音具有很好的自然度和清晰度,提高了聲調錯誤感知的容易程度和學習的趣味性。具體包括如下步驟
(54.1) 對學習者的發(fā)音進行聲學分析,提取語音信號中的基頻序列、非周期諧波成分特征和語音的語音頻譜特征;
(54.2) 用產生的目標聲調的基頻序列修正或替換學習者發(fā)音中的基頻
序列;
(54.3) 基于源一濾波器模型,利用目標聲調的基頻序列和聲道響應濾波器合成帶有目標聲調的學習者發(fā)音。
所述步驟S4的基于源一濾波器模型生成標準目標聲調語音的過程中,采用歸一化線性多項式表示聲調的一般實現(xiàn)模型,根據(jù)目標聲調的類型,選
6擇不同聲調對應的標準歸一化時間函數(shù),并和學習者的聲調基頻均值和范圍一同代入聲調實現(xiàn)模型,計算得到目標聲調的基頻序列。
所述步驟S4的基于源一濾波器模型生成標準目標聲調語音的過程中,首先從標準發(fā)音庫中提取不同帶調音節(jié)的標準聲調基頻序列,并進行平滑、歸一化等處理,得到標準聲調的基頻序列模板;然后選擇和學習者的發(fā)音相同的音節(jié)所對應的聲調基頻序列模板作為目標聲調的基頻序列。
所述步驟S5中采用聲調后驗概率加權平均的二次函數(shù)繪制聲調曲線,可得到平滑的易于理解的聲調曲線,定量地反映聲調發(fā)音質量。具體包括以下步驟
(55.1) 設計標準聲調曲線對應的二次函數(shù)的系數(shù);
(55.2) 計算每種聲調的后驗概率;
(55.3) 使用后驗概率加權標準聲調曲線的二次函數(shù),得到實際聲調的曲線函數(shù);
(55.4) 根據(jù)聲調曲線函數(shù),繪制目標聲調和實際聲調的曲線。所述錯誤自感知的聲調發(fā)音學習方法還包括聲調評分和錯誤提示功能,
用以給出對聲調發(fā)音質量的客觀量化得分,并告知學習者聲調發(fā)音錯誤信息以及相關改進建議。
所述的錯誤自感知的聲調發(fā)音學習方法可應用于多音節(jié)連續(xù)語音(如短語和句子)的聲調學習場景。采用基于HMM模型的上下文相關的三元聲調模型可以對連續(xù)語音計算不同層級(如字、詞、句)的聲調評分。在得到每個音節(jié)的聲調邊界后,基于源-濾波器模型的目標聲調語音合成技術可以生成具有標準聲調的連續(xù)語音,而基于后驗概率加權的聲調曲線生成技術可以
繪制每個音節(jié)實際聲調的曲線。本發(fā)明的優(yōu)點是
1. 本發(fā)明提供了一種全面的、立體的聲調學習反饋機制,通過聲音和圖像兩種方式來反映聲調發(fā)音質量,能夠提供形象、直觀、娛樂的反饋信息,使學習者可以自發(fā)地感知聲調發(fā)音錯誤,從而啟發(fā)式地引導學習者有目標地校正自己的聲調發(fā)音,提高聲調發(fā)音學習的效率。
2. 采用基于HMM的上下文相關的三元聲調模型可以更好地建模上下文協(xié)同發(fā)音對聲調模式的影響,在計算聲調評價得分時,不需要預先對語音按照音節(jié)分段,得到的聲調評價得分更加準確,計算的聲調后驗概率比其他模型(如基于高斯混合模型(GMM)的聲調模型、基于HMM的一元聲調模型)計算的后驗概率更為準確,從而使繪制的聲調曲線更真實準確。
3. 基于源-濾波器模型的目標聲調語音合成不會改變語音頻譜特征,即學習者本人的發(fā)音特征和語音內容得以保留,這使得學習者可以直接對比合
成的目標聲調語音和實際語音的聲調差異,更專注于感知聲調并糾正聲調錯誤,同時也增加了學習的趣味性。在語音其它聲學特征都不變的情況下去感知聲調差異,這對于非母語學習者來說更有幫助。
4. 采用聲調后驗概率加權二次函數(shù)的聲調曲線,使得繪制的聲調曲線是平滑的,并且對于相同聲調其曲線也有差異,其彎折程度和趨勢有效反映了用戶聲調發(fā)音的準確程度,比簡單的實際聲調的4聲調平滑曲線更加真實,比粗糙的實際聲調的基頻軌跡曲線更具有指導意義。這種聲調曲線繪制方法不僅可以清楚地表明不同聲調類型,而且可以表現(xiàn)相同聲調的不同的發(fā)音準確程度。聲調曲線和聲調發(fā)音質量之間存在定量聯(lián)系,學習者能夠通過視覺更容易地感知并識別聲調發(fā)音錯誤。
5. 基于HMM的上下文相關的三元聲調模型可以對連續(xù)語音的聲調發(fā)音進行評價,而所述的目標聲調合成和聲調曲線繪制方法也適用于連續(xù)語音情況。因此,本發(fā)明所公開的方法和系統(tǒng)適用于字、詞、短語和句子等不同層次的聲調發(fā)音學習任務。
下面結合附圖及一個應用于中文聲調學習的優(yōu)選實施例對本發(fā)明作進一步描述
圖1為本發(fā)明的實施例的總功能框圖;圖2為本發(fā)明的實施例的總流程圖3為本發(fā)明的實施例的聲調發(fā)音評價參數(shù)計算流程圖;圖4為本發(fā)明的實施例的源一濾波器模型的原理圖;圖5為本發(fā)明的實施例的目標聲調合成流程圖;圖6為本發(fā)明的實施例的聲調曲線繪制流程圖7為本發(fā)明的實施例的標準聲調曲線和實際聲調曲線的比較示意圖。其中1前端處理模塊;2模型訓練模塊;3評價參數(shù)計算模塊;4反饋模塊。
具體實施例方式
實施例如圖1和圖2所示,本發(fā)明首先建立標準發(fā)音語音庫,利用標準聲調發(fā)音數(shù)據(jù)訓練聲調模型和音素模型,得到上下文相關的三元聲調模型和音素模型,然后記錄并分析學習者的發(fā)音,從中提取聲學特征,包括語音頻譜特征和聲調基頻特征,并對基頻特征進行后處理,給出聲調發(fā)音質量的評價,利用學習者的原始語音生成具有目標聲調發(fā)音的語音,并反饋給學習者,繪制平滑的目標聲調和實際聲調的輪廓曲線,也同時反饋給學習者。通過以上機制,使得學習者能夠感知自己的聲調發(fā)音錯誤,引導學習者自發(fā)地修正聲調發(fā)音。
首先模型訓練模塊2建立標準發(fā)音語音庫要求錄音文本覆蓋所有音素/音節(jié),常用音節(jié)相對均衡,聲調相對均衡,文本涵蓋單音節(jié)詞、多音節(jié)詞和句子,錄音人性別均衡,年齡呈高斯分布,錄音人普通話水平較高,聲調發(fā)音要準確,通過自動和人工方式對原始錄音數(shù)據(jù)和標注進行多輪檢査和篩選,去除聲調發(fā)音模糊的數(shù)據(jù),修正錯誤聲調標注。
然后建立音素和聲調的隱馬爾科夫模型(Hidden Markov Model,HMM),采用上下文相關建模方法。上下文相關建模是語音識別中的一項重要技術。三元聲調建模采用了上下文相關建模技術,可建模上下文協(xié)同發(fā)音引起的聲調模式變化。假設一段語音信號對應的聲調序列為"U,tl,t3,t2,t4,t4 ",那么其對應的上下文相關的三元聲調模型序列為"tl+tl,tl-t3+t2,t3-t2+t4,t2-t4+",t4-t4,,,其中"ti"表示聲調i,比如"t3"表示聲調3。
在本實施例的音素建模中,在長度為25ms的數(shù)據(jù)幀上逐幀提取感知線性預測(PLP, Perceptually Based Linear Prediction)特征,幀移10ms。采
用PLP特征訓練音素單元的HMM模型。
在本實施例的聲調建模中,在長度為25ms的數(shù)據(jù)幀上逐幀(幀移10ms)提取目標聲調基頻序列和能量作為聲調特征,對基頻序列進行平滑,并做歸一化處理,消除不同學習者的調域差異。采用期望最大化算法(EM算法)來訓練基于HMM模型的上下文相關的三元聲調模型。為了進行數(shù)據(jù)共享,提高模型推廣能力,對上下文相關的三元聲調模型進行數(shù)據(jù)驅動的狀態(tài)綁定。期望最大化算法是成熟的機器學習技術。模型訓練模塊2建立的標準發(fā)
音語音庫,以及聲調模型和音素模型等數(shù)據(jù)均存儲于計算機設備、嵌入式計
算設備(如PDA、蜂窩電話、MP3等媒體播放設備)以及專用的學習設備 (如語言學習機等)的存儲設備中,以備錯誤自感知的聲調發(fā)音學習系統(tǒng)隨時 調用。
在聲調模型和音素模型建立好之后,就可以開始為學習者服務了。學習 者通過上述計算機等設備輸入語音數(shù)據(jù),前端處理模塊1從學習者的語音中 提取聲學特征,包括譜特征和聲調特征,并對聲調特征做后處理。評價參數(shù) 計算模塊3根據(jù)標準聲調模型和音素模型,利用基于HMM模型的上下文相 關的三元聲調模型計算反映聲調質量的評分參數(shù),得到聲調評價得分、聲調 后驗概率、聲調長度等參數(shù)。如圖3所示為聲調發(fā)音評價參數(shù)計算流程圖。 聲調評價得分是強制對齊的似然度和識別的似然度之比(參考文獻"S.M. Witt: Use of speech recognition in computer-assisted language learning, PhD. Thesis, 1999")。識別似然度是指語音的內容未知,通過搜索標準發(fā)音 語音庫中所有可能的模型序列組合尋找似然度得分最大的模型序列作為識 別結果,它所對應的似然度得分就是識別似然度。強制對齊似然度是指語音 的內容已知的情況下,用對應的模型去計算的概率。本實施例采用基于HMM 模型的上下文相關的三元聲調模型。
給定聲調模型參數(shù)A 、聲學特征序列0和聲調數(shù)目iV,聲調的后驗概率
可以通過下式計算
,"=",局 (1)
在上下文相關的三元聲調模型情況下,(1)式需要修正為下式
其中,/,代表聲調^前一個發(fā)出的聲調,^代表聲調0后一個發(fā)出的聲周。
如果學習文本是多音節(jié)詞或者句子,那么每個音節(jié)上的聲調后驗概率的 計算可以采用兩種實現(xiàn)方式
一、首先通過音素模型對語音進行強制對齊,獲得音節(jié)邊界,然后在每個音節(jié)段上分別計算聲調后驗概率;
二、直接使用上下文相關的三元聲調模型進行解碼,獲得表示多候選結 果的網(wǎng)格(Lattice),然后對Lattice中的所有路徑進行對齊,得到聲調混淆 網(wǎng)絡(參考文獻"L. Mangu, E. Brill, A. Stolcke: Finding consensus in speech recognition: word error minimization and other applications of confusion networks, Computer Speech & Language 14(4): 373-400, 2000"),每個混淆 集合中的聲調得分就是聲調后驗概率。
聲調評價得分的計算公式如下
log
(9
log I (,義)-log max / (<9 | r,, A)
戶l. j _J
(3)
|<9|
其中,A表示聲調模型,O為對應聲調&的聲學特征序列,l"表示序 列的長度(幀數(shù))。在使用上下文相關的三元聲調模型的聲調評價得分計算 中,我們不需要預先知道每個聲調的邊界。聲調的最佳邊界由上下文相關的 三元聲調模型解碼自動獲得。這樣就減少了對音素模型的依賴,并且很好的 建模了聲調上下文的影響。在連續(xù)語音的聲調質量評估中,這樣使用上下文 相關的三元聲調模型具有更好的評價性能。
把上述評分參數(shù),如聲調評價得分,映射為百分制得分或者是5分制得 分,通過反饋模塊4的還具有聲調發(fā)音評分和錯誤提示功能,用以給出對聲 調發(fā)音質量的可度量的得分,并告知學習者聲調發(fā)音錯誤信息以及相關改進 建議。
本發(fā)明采用源一濾波器模型進行目標聲調合成。如圖5所示,為目標聲 調合成流程圖,具體包括如下步驟
(1) 對學習者的發(fā)音進行聲學分析,提取語音信號中的基頻序列、非 周期諧波成分特征和語音的語音頻譜特征;
(2) 用產生的目標聲調的基頻序列修正或替換學習者發(fā)音中的基頻序
列;
(3) 基于源一濾波器模型,利用目標聲調的基頻序列和聲道響應濾波器合成帶有目標聲調的學習者發(fā)音。
首先對學習者的發(fā)音進行聲學分析,包括提取語音信號中的激勵源特 征,即學習者語音的基頻序列,提取非周期諧波成分特征和語音的聲道響應 特征,即語音頻譜。采用聲調模型或者音素模型對學習者的發(fā)音進行強制對 齊,得到音節(jié)(syllable)邊界,分析每個音節(jié)邊界內的語音,提取其基頻 序列?;l提取可以采用很多算法,本發(fā)明中采用實時頻率映射的固定點分 析方法(參考文獻"H. Kawahara: Fixed point analysis of frequency to instantaneous frequency mapping for accurate estimation F0 and periodicity, proc. Eurospeech,99, 2781-2784")。語音頻譜通過短時傅立葉變 換來提取,然后采用基頻自適應的方法來進行譜平滑,去除周期性干擾(參 考文獻 "H. Kawahara: Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous隱frequency-based F0 extraction, Speech Communication, 27, 187-207, 1999,,)。
然后使用新生成的目標聲調基頻序列修正或者替換學習者發(fā)音中聲調 的基頻序列。其中,目標聲調基頻序列可以由基于規(guī)則的方法、或基于數(shù)據(jù) 的方法、或者是規(guī)則和數(shù)據(jù)相結合的方法來產生。
基于規(guī)則的目標聲調基頻序列的生成方法如下
根據(jù)實驗語音學的相關研究成果,聲調實現(xiàn)模型可以表示為一個歸一化 線性多項式,艮P:
柳=,+/,乂") (4) 其中/為歸一化時長,/£{1,2,3,4}表示陰平、陽平、上聲和去聲4種
聲調,/e為體現(xiàn)學習者調域髙低的基頻均值,fd為體現(xiàn)說話人調域的寬度, fi(t)為標準聲調的調形函數(shù),本實施例中聲調的調形函數(shù)表示為
= a,. + 6/ — c/2 +《f3 — ( 5 )
不同的聲調具有不同的調性函數(shù)參數(shù){&, " , d,根據(jù)目標聲調的
類型,選擇對應的m^M^-^^^^科^/,最后采用(o-式^^^^
調的基頻序列。
基于數(shù)據(jù)的目標聲調基頻序列的生成方法如下
首先對標準發(fā)音庫中的語音按音節(jié)分組,再按照聲調分組,對每組中的
12發(fā)音提取其聲調基頻序列。然后采用和聲調特征處理相同的方法對基頻序列 進行平滑處理,采用動態(tài)時間伸縮算法(DTW, Dynamic Time Warpping) (參考文獻 "L. R. Rabiner, B.-H. Juang : Fundamentals of Speech Recognition, Englewood Cliffs: Prentice Hall, 1993")對每組基頻序列進行 歸整,得到該音節(jié)下該聲調的標準基頻序列模板。動態(tài)時間伸縮算法是日本 學者板倉(Itakura)將動態(tài)規(guī)劃技術應用于解決孤立詞識別時說話速度不 均勻的難題,提出的把時間規(guī)整和距離測度計算結合起來的一種非線性歸整 技術。
從標準基頻序列模板庫中選擇和示例文本音節(jié)相同的發(fā)音,采用該音節(jié) 下目標聲調對應基頻序列模板作為目標聲調的基頻基頻序列。
接著用生成的目標聲調的基頻序列來代替學習者發(fā)音中的原始聲調的 基頻序列,如果目標聲調基頻基頻序列與原始聲調基頻序列的長度不同,那 么需要對發(fā)音的語譜進行拉伸或者壓縮,使之和目標聲調基頻序列的長度保 持一致,可以通過插值操作實現(xiàn)。采用基頻自適應方法使用目標聲調的基頻 序列對做完插值操作的語音頻譜進行平滑。此外,還需要根據(jù)目標聲調類型 調整語譜的能量分布,此為現(xiàn)有技術。
然后基于源一濾波器模型利用目標聲調的基頻序列和聲道響應濾波器 合成帶有目標聲調的學習者發(fā)音。如圖4所示為源一濾波器模型的原理圖。 源一濾波器模型是一種通用的刻畫語音信號產生的模型(參考文獻"H. Dudley: Remaking speech, J. Acoust. Soc. Amer. 11(2), 169-177, 1939")。 根據(jù)源一濾波器模型,數(shù)字語音信號JC(^)可以看成是由聲門產生的激勵信號 e(^)和聲道的沖擊響應A(^l進行巻積操作產生
x(") = e(M)*/ 00 (6)
聲門激勵信號eW即為目標基頻序列,聲道的沖擊響應A 參數(shù)即為學 習者的語音頻譜。兩者的巻積即為合成的目標聲調語音。通過反饋模塊4輸 出聲音給學習者。正由于基于源-濾波器模型的聲調轉換采用了學習者產生 的語音譜,不會改變語音的頻譜特征,即學習者本人的發(fā)音特征和語音內容 得以保留,這使得學習者更專注于感知聲調發(fā)音錯誤,啟發(fā)式地誘導學習者 去糾正自己的聲調發(fā)音。目標聲調語音通過計算機設備、嵌入式計算設備(如PDA、蜂窩電話、MP3等媒體播放設備)以及專用的學習設備(如語言學習 機等)的音頻輸出設備輸出。
在得到聲調后驗概率之后,可以畫出采用聲調后驗概率加權平均的二次 曲線繪制聲調曲線。如圖6所示,為繪制聲調曲線的流程圖,具體包括如下 步驟
(1) 設計標準聲調曲線對應的二次函數(shù)的系數(shù);
(2) 計算每種聲調的后驗概率;
(3) 使用后驗概率加權標準聲調曲線的二次函數(shù),得到實際聲調的曲 線函數(shù);
(4) 在五度標調坐標下,繪制目標聲調和實際聲調的曲線。 本實施例中采用五度標調法(參考文獻"Y.-R. Chao: A system of tone
letters, LeMaitre Phon"ique, 45, 24-27, 1930"),設計四個二次函數(shù)來 表示四聲調,分別為
f20) = a2X2+V + C2 (7)
"x) = a4x2 + 64x + c4
通過這一組方程,在五度標調坐標中,可以繪制出4種聲調的標準曲線。 用A矩陣代表函數(shù)組的系數(shù)
(8)
設經過聲調識別得到四個聲調的后驗概率,將其表示為一個向量 P = (Pt P2 P3 P4)
其中,p,指聲調/的后驗概率。
則聲調后驗概率加權的聲調二次函數(shù)可表示為
《x) = PA7'X,其中X二(x2 jc l)r (9)
根據(jù)(8)式在五度標調坐標下繪制學習者發(fā)音的聲調曲線,如圖7所 示,為本實施例的標準聲調曲線和實際聲調曲線的比較圖。標準聲調曲線和
卜"2a3。4)
A =6364
、C!c2c3實際聲調曲線通過計算機等設備的顯示設備輸出,學習者通過和標準曲線進 行比較,從而發(fā)現(xiàn)自己聲調發(fā)音的錯誤或者缺陷。如停止的"停"的標準發(fā) 音為ting發(fā)陽平2聲調,學習者將2聲發(fā)成了類似3聲的樣子,通過反饋模 塊4顯示比較曲線,學習者看到后,根據(jù)曲線調整發(fā)音,直到使自己的發(fā)音 曲線和標準聲調曲線相近為止。
采用聲調后驗概率加權的聲調二次函數(shù)繪制的聲調曲線對于相同聲調 也有差異,其彎折程度和趨勢有效反映了用戶的聲調發(fā)音準確程度,比簡單
的實際聲調的4聲調平滑曲線更加真實,比粗糙的實際聲調的基頻軌跡曲線 更具有指導意義,不僅可以清楚地表明不同聲調類型,而且可以表現(xiàn)相同聲 調的不同發(fā)音的準確程度,通過視覺能夠給學習者以直觀的指導。
另外,反饋模塊中可以設置聲調錯誤提示模塊,用來告訴學習者聲調發(fā) 音錯誤的類型和改進的方法。
上述實施例中,聲調發(fā)音學習的聲學單元可以是單字、詞、短語或者句 子級發(fā)音。本發(fā)明所實施的上下文相關的三元聲調模型、目標聲調語音合成 和實際語音聲調曲線繪制方法支持不同長度的語音單元的聲調發(fā)音學習。
如果學習內容是一段多音節(jié)連續(xù)語音的聲調發(fā)音,系統(tǒng)首先采用上下文 相關的三元聲調模型對學習者的語音計算強制對齊似然度和識別似然度。在 計算識別似然度時,采用根據(jù)語音音節(jié)數(shù)構造的固定長度的解碼網(wǎng)絡,可以 保證高的識別正確率。然后利用聲調評分算法可以計算得到音節(jié)、詞和句子 級的聲調發(fā)音評分。根據(jù)聲調識別得到的音節(jié)邊界,對每個音節(jié)的聲調基頻 序列進行修正或替換,最后合成具有標準聲調發(fā)音的學習者語音,保留學習 者自身語言特點和語音內容。同時,對每個音節(jié)的聲調可以通過后驗概率加 權的二次函數(shù)繪制其曲線,學習者可以通過視覺感知每個音節(jié)上的聲調發(fā)音 錯誤。
以上所述,僅為本發(fā)明的優(yōu)選實施例,并不能以此限定本發(fā)明實施的范 圍,凡依本發(fā)明權利要求及說明書內容所作的簡單的變換,皆應仍屬于本發(fā) 明覆蓋的保護范圍。本領域的普通技術人員在擁有常規(guī)的音頻輸入輸出和顯 示輸出的計算機設備、嵌入式計算設備(如PDA、蜂窩電話、MP3等媒體 播放設備)以及專用的學習設備(如語言學習機等)上即可以實現(xiàn)本發(fā)明所 公開的錯誤自感知的聲調發(fā)音學習方法和系統(tǒng)。
權利要求
1.一種錯誤自感知的聲調發(fā)音學習方法,其特征在于包括如下步驟步驟S1首先建立標準發(fā)音語音庫,訓練聲調模型和音素模型,得到上下文相關的三元聲調模型和音素模型;步驟S2從學習者的語音中提取聲學特征,包括語音頻譜特征和聲調特征,并對聲調特征進行后處理;步驟S3根據(jù)標準聲調模型和音素模型,利用基于隱馬爾可夫模型的上下文相關的三元聲調模型計算反映聲調質量的評分參數(shù),得到聲調評價得分、聲調后驗概率;步驟S4基于源-濾波器模型合成具有標準目標聲調和學習者語音頻譜特征的新語音,并反饋給學習者;步驟S5采用聲調后驗概率加權平均的二次函數(shù)繪制聲調曲線,并將標準聲調曲線和實際發(fā)音的聲調曲線反饋給學習者。
2. 根據(jù)權利要求1中所述的錯誤自感知的聲調發(fā)音學習方法,其特征 在于所述歩驟S4中采用基于源一濾波器模型生成標準目標聲調語音,保 留學習者自身語音頻譜特征,并不改變語音內容,具體包括如下步驟步驟S4.1:對學習者的發(fā)音進行聲學分析,提取語音信號中的基頻序列、 非周期諧波成分特征和語音的語音頻譜特征;步驟S4.2:用產生的目標聲調的基頻序列修正或替換學習者發(fā)音中的基 頻序列;步驟S4.3:基于源一濾波器模型,利用目標聲調的基頻序列和聲道響應 濾波器合成帶有目標聲調的學習者發(fā)音。
3. 根據(jù)權利要求2中所述的錯誤自感知的聲調發(fā)音學習方法,其特征 在于所述步驟S4的基于源一濾波器模型生成標準目標聲調語音的過程中, 采用歸一化線性多項式表示聲調實現(xiàn)模型,根據(jù)目標聲調的類型,選擇不同 聲調對應的標準歸一化時間函數(shù),并和學習者的聲調基頻均值和范圍一同代 入聲調實現(xiàn)模型,計算得到目標聲調的基頻序列。
4. 根據(jù)權利要求2中所述的錯誤自感知的聲調發(fā)音學習方法,其特征 在于所述步驟S4的基于源一濾波器模型生成標準目標聲調語音的過程中, 首先從標準發(fā)音庫中提取不同帶調音節(jié)的標準聲調基頻序列,并進行平滑、 歸一化等處理,訓練得到標準聲調的基頻序列模板;然后選擇和學習者的發(fā)音相同的音節(jié)所對應的聲調基頻序列模板作為目標聲調的基頻序列。
5. 根據(jù)權利要求1中所述的錯誤自感知的聲調發(fā)音學習方法,其特征 在于所述歩驟S5中采用聲調后驗概率加權平均的二次函數(shù)繪制聲調曲線, 具體包括以下步驟歩驟S5.1:設計標準聲調曲線對應的二次函數(shù)的系數(shù); 歩驟S5.2:計算每種聲調的后驗概率;歩驟S5.3:使用后驗概率加權標準聲調曲線的二次函數(shù),得到實際聲調 的曲線函數(shù);歩驟S5.4:根據(jù)聲調曲線函數(shù),繪制目標聲調和實際聲調的曲線。
6. 根據(jù)權利要求1中所述的錯誤自感知的聲調發(fā)音學習方法,其特征 在于還包括聲調評分和錯誤提示功能,用以給出對聲調發(fā)音質量的客觀量 化得分,并告知學習者聲調發(fā)音錯誤信息以及相關改進建議。
7. 根據(jù)權利要求1中所述的錯誤自感知的聲調發(fā)音學習方法,其特征 在于基于隱馬爾可夫模型的上下文相關的三元聲調模型的聲調評分、基于 源-濾波器模型的目標聲調語音合成和基于后驗概率加權的二次函數(shù)聲調曲 線生成適用于字、詞、短語和句等多種不同語音單元的聲調發(fā)音學習,尤其 是多音節(jié)連續(xù)語音的聲調發(fā)音學習。
8. —種錯誤自感知的聲調發(fā)音學習系統(tǒng),其特征在于包括 模型訓練模塊(2),建立標準發(fā)音語音庫,訓練聲調模型和音素模型,得到標準上下文相關的三元聲調模型和音素模型;前端處理模塊(l),從學習者的語音中提取聲學特征,包括語音頻譜特 征和聲調特征,并對聲調特征進行后處理;評價參數(shù)計算模塊(3),根據(jù)模型訓練模塊(2)得到的標準聲調模型 和音素模型,利用基于隱馬爾可夫模型的上下文相關的三元聲調模型計算反 映聲調質量的評分參數(shù),得到從前端處理模塊(1)提取的學習者語音的聲 調評價得分、聲調后驗概率;反饋模塊(4),基于源一濾波器模型合成具有標準目標聲調和學習者語 音頻譜特征的語音,采用評價參數(shù)計算模塊(3)得到的聲調后驗概率加權 平均的二次函數(shù)繪制聲調曲線,將標準目標聲調語音、標準聲調曲線、實際 發(fā)音的聲調曲線和聲調發(fā)音量化評分及錯誤提示反饋給學習者。
全文摘要
本發(fā)明公開了一種錯誤自感知的聲調發(fā)音學習方法和系統(tǒng),首先建立標準發(fā)音語音庫,訓練得到上下文相關的三元聲調模型和音素模型;從學習者語音中提取語譜和基頻特征,并對基頻特征進行后處理;利用三元聲調模型計算反映聲調質量的評分參數(shù),得到聲調評價得分、聲調后驗概率;基于源一濾波器模型合成具有標準目標聲調和用戶語音頻譜特征的語音,并采用聲調后驗概率加權平均的二次函數(shù)繪制聲調曲線;最后將目標聲調語音和實際發(fā)音的聲調曲線反饋給學習者。本發(fā)明通過聲音和圖像兩種方式來直接反映聲調發(fā)音質量,能夠提供形象、直觀的反饋信息,使學習者可以自發(fā)地感知聲調發(fā)音錯誤并進行校正,并增加了學習的娛樂性和趣味性,提高學習效率。
文檔編號G09B7/00GK101661675SQ20091018615
公開日2010年3月3日 申請日期2009年9月29日 優(yōu)先權日2009年9月29日
發(fā)明者凱 俞, 王歡良 申請人:蘇州思必馳信息科技有限公司