發(fā)音韻律問題的檢測方法及裝置制造方法
【專利摘要】本發(fā)明提出一種發(fā)音韻律問題的檢測方法和裝置,包括:接收待測語音數(shù)據(jù);獲取待測語音數(shù)據(jù)的單詞邊界信息,并提取待測語音數(shù)據(jù)的韻律信息;根據(jù)待測語音數(shù)據(jù)的單詞邊界信息和韻律信息生成待測語音數(shù)據(jù)的韻律標注信息;將待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析,以檢測待測語音數(shù)據(jù)是否存在發(fā)音韻律問題。本發(fā)明的發(fā)音韻律問題的檢測方法,自動獲取語音的韻律標注信息進行比對,無需人工標注,應用更加靈活、廣泛,尤其在語言學習類軟件中,通過自動檢測語音的韻律,可以更加有效的評估用戶發(fā)音的韻律問題。此外,檢測過程中不需要大容量的數(shù)據(jù)庫,計算量少,提高了檢測效率。
【專利說明】發(fā)音韻律問題的檢測方法及裝置
【技術領域】
[0001]本發(fā)明涉及語音處理【技術領域】,特別涉及一種發(fā)音韻律問題的檢測方法及裝置。
【背景技術】
[0002]隨著語音識別技術的不斷發(fā)展,語音評測技術在語音識別及應用中發(fā)揮越來越大的作用。語音測評技術主要用于對語音數(shù)據(jù)的質量進行評估,其中,不但包括對語音數(shù)據(jù)中字詞的發(fā)音質量進行的評估,還包括對語音數(shù)據(jù)中韻律是否準確的檢測和評估。例如,在語言學習中,用戶可通過聽標準帶讀音并進行跟讀來學習一門語言。用戶可通過比對跟讀音與標準音中的發(fā)音和韻律是否一致,并根據(jù)比對結果進行糾正不斷提高學習水平。其中,如何能夠準確地評估、反饋用戶的跟讀音中的存在的韻律問題是快速掌握一門語言的關鍵。語音韻律問題,是指語音中出現(xiàn)錯誤的韻律,比如,該連讀時沒有連讀,該停頓時沒有停頓,該重讀的時候沒有重讀等。另外,在一些其他場景下,如語音識別中,也需要對語音的發(fā)音韻律問題進行檢測。
[0003]目前,用于韻律問題檢測的技術主要有人工標注法和韻律約束條件法。
[0004]其中,人工標注法,需要在語音對應的文本中人工標注出語音的正確韻律,然后根據(jù)人工標注的韻律對應的位置信息,提取語音中相應位置的韻律相關的聲學特征,并檢測語音是否存在韻律問題,比如,對標注了重讀的單詞,提取該單詞的語音的能量、基頻等聲學特征,通過判斷這些聲學特征是否大于某門限等方法確定該單詞是否被重讀了。
[0005]韻律約束條件法,按照韻律約束條件對輸入語音數(shù)據(jù)進行韻律評估的方法。其中,韻律約束條件即:將輸入的語音數(shù)據(jù)的語言結構或語法結構等與標準語料庫中的標準語音的標準結構進行匹配,并通過具有相似結構的標準語音的韻律邊界位置來推導輸入語音應有的韻律邊界位置。對于標準語料庫中可能存在眾多與輸入語音結構相似的標準語音的情況,可根據(jù)韻律邊界的統(tǒng)計概率確定輸入語音數(shù)據(jù)需要采用哪種韻律邊界。
[0006]現(xiàn)有的兩種韻律評估的技術,都需要人工標注語音的單詞邊界以及韻律邊界。在沒有人工標注的情況下就無法對用戶發(fā)音的韻律進行評估。此外,韻律約束條件法需要大容量的標準語料庫,一方面,占用很大的存儲空間,另一方面,標準語料庫庫中標準語音也是需要人工進行正確的韻律標注,而且在判斷韻律約束條件時,還需要查詢整個標準語料庫,計算韻律邊界的統(tǒng)計概率,進而才能確定韻律約束條件,計算量很大。
【發(fā)明內容】
[0007]本發(fā)明旨在至少在一定程度上解決上述技術問題。
[0008]為此,本發(fā)明的第一個目的在于提出一種發(fā)音韻律問題的檢測方法,無需人工標注,應用更加靈活、廣泛,可以更加有效的評估用戶發(fā)音的韻律問題,提高了檢測效率。
[0009]本發(fā)明的第二個目的在于提出一種發(fā)音韻律問題的檢測裝置。
[0010]為達上述目的,根據(jù)本發(fā)明第一方面實施例提出了一種發(fā)音韻律問題的檢測方法,包括:接收待測語音數(shù)據(jù);獲取所述待測語音數(shù)據(jù)的單詞邊界信息,并提取所述待測語音數(shù)據(jù)的韻律信息;根據(jù)所述待測語音數(shù)據(jù)的單詞邊界信息和韻律信息生成所述待測語音數(shù)據(jù)的韻律標注信息;將所述待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析,以檢測所述待測語音數(shù)據(jù)是否存在發(fā)音韻律問題。
[0011]本發(fā)明實施例的發(fā)音韻律問題的檢測方法,通過獲取待測語音數(shù)據(jù)的單詞邊界信息,并提取其韻律信息,以據(jù)此生成待測語音數(shù)據(jù)的韻律標注信息,并與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析來檢測發(fā)音韻律問題,可自動獲取語音的韻律標注信息進行比對,無需人工標注,應用更加靈活、廣泛,尤其在語言學習類軟件中,通過自動檢測語音的韻律,可以更加有效的評估用戶發(fā)音的韻律問題。此外,檢測過程中不需要大容量的數(shù)據(jù)庫,計算量少,提高了檢測效率。
[0012]本發(fā)明第二方面實施例提供了一種發(fā)音韻律問題的檢測裝置,包括:接收模塊,用于接收待測語音數(shù)據(jù);獲取模塊,用于獲取所述待測語音數(shù)據(jù)的單詞邊界信息,并提取所述待測語音數(shù)據(jù)的韻律信息;生成模塊,用于根據(jù)所述待測語音數(shù)據(jù)的單詞邊界信息和韻律信息生成所述待測語音數(shù)據(jù)的韻律標注信息;檢測模塊,用于將所述待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析,以檢測所述待測語音數(shù)據(jù)是否存在發(fā)音韻律問題。
[0013]本發(fā)明實施例的發(fā)音韻律問題的檢測裝置,通過獲取待測語音數(shù)據(jù)的單詞邊界信息,并提取其韻律信息,以據(jù)此生成待測語音數(shù)據(jù)的韻律標注信息,并與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析來檢測發(fā)音韻律問題,可自動獲取語音的韻律標注信息進行比對,無需人工標注,應用更加靈活、廣泛,尤其在語言學習類軟件中,通過自動檢測語音的韻律,可以更加有效的評估用戶發(fā)音的韻律問題。此外,檢測過程中不需要大容量的數(shù)據(jù)庫,計算量少,提高了檢測效率。
[0014]本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0015]本發(fā)明的上述和/或附加的方面和優(yōu)點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
[0016]圖1為根據(jù)本發(fā)明一個實施例的發(fā)音韻律問題的檢測方法的流程圖;
[0017]圖2為根據(jù)本發(fā)明一個實施例的對參考語音數(shù)據(jù)進行標注的方法的流程圖;
[0018]圖3為根據(jù)本發(fā)明一個實施例的發(fā)音韻律問題的檢測裝置的結構示意圖;
[0019]圖4為根據(jù)本發(fā)明一個具體實施例的發(fā)音韻律問題的檢測裝置的結構示意圖;
[0020]圖5為根據(jù)本發(fā)明又一個實施例的發(fā)音韻律問題的檢測裝置的結構示意圖。
【具體實施方式】
[0021]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0022]在本發(fā)明的描述中,需要理解的是,術語“多個”指兩個或兩個以上;術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。
[0023]下面參考附圖描述根據(jù)本發(fā)明實施例的發(fā)音韻律問題的檢測方法和裝置。
[0024]圖1為根據(jù)本發(fā)明一個實施例的發(fā)音韻律問題的檢測方法的流程圖。如圖1所示,根據(jù)本發(fā)明實施例的發(fā)音韻律問題的檢測方法,包括:
[0025]SlOl,接收待測語音數(shù)據(jù)。
[0026]舉例來說,待測語音數(shù)據(jù)可以是用戶針對標準的參考語音錄的跟讀語音。
[0027]S102,獲取待測語音數(shù)據(jù)的單詞邊界信息,并提取待測語音數(shù)據(jù)的韻律信息。
[0028]具體地,在本發(fā)明的一個實施例中,可首先獲取待測語音數(shù)據(jù)對應的文本內容(例如,跟讀語音所跟讀的文本內容),并根據(jù)該文本內容構建解碼網(wǎng)絡,再將解碼網(wǎng)絡和聲學模型傳給解碼器。其中,聲學模型是語音識別的基礎數(shù)學模型,模型單元可以是音素、音節(jié)或字,目前主流的建模方式是采用隱馬爾科夫建模。解碼器是語音識別系統(tǒng)的核心之一,其任務是對輸入的聲學特征,根據(jù)聲學模型、解碼網(wǎng)絡,尋找該聲學特征對應的概率最大的語言單元序列。解碼網(wǎng)絡又稱語法網(wǎng)絡,是以上述文本內容中的音素(如漢字的韻母、聲母等)、音節(jié)或字為節(jié)點,音素之間的連接關系為弧的有向圖,解碼網(wǎng)絡限定了解碼器輸出語言單元序列的范圍。
[0029]然后,提取待測語音數(shù)據(jù)的聲學特征傳給解碼器進行解碼,使得待測語音數(shù)據(jù)與對應的文本內容進行對齊。根據(jù)對齊結果可獲取待測語音數(shù)據(jù)的單詞邊界信息。其中,聲學特征是描述短時語音本質特征的一組值,通常是一種固定維數(shù)的特征向量(如39維的MFCC(Mel頻率倒譜系數(shù)的縮寫)特征向量)。單詞邊界信息是指待測語音中單詞起始發(fā)音對應的時間幀(或時刻)到結束發(fā)音對應的時間幀(或時刻),從而,可根據(jù)單詞邊界信息獲取在待測語音數(shù)據(jù)中讀每個單詞所用的時間段,以及單詞之間的時間段。
[0030]最后,可根據(jù)待測語音數(shù)據(jù)的單詞邊界信息提取待測語音數(shù)據(jù)的韻律信息。語音的韻律主要包括:連讀、意群停頓、重讀、升降調等信息。對于不同韻律的檢測,提取的韻律特征不同。舉例來說,判斷連讀韻律時,提取的韻律特征包括兩個單詞間有無靜音、基頻是否連續(xù)、能量是否出現(xiàn)低谷等韻律特征;判斷停頓韻律時,提取單詞間的靜音時長等韻律特征;判斷重讀韻律時,提取單詞的能量幅值、基頻等韻律特征;判斷升降調韻律時,提取單詞的基頻斜率等韻律特征。進而,可依據(jù)單詞邊界信息,依次計算每個單詞及單詞間的上述韻律特征,根據(jù)相應的判斷策略確定待測語音中每個單詞的重讀、升降調以及單詞間的連讀、停頓等韻律信息。
[0031]舉例來說,如果兩個單詞之間不存在靜音且基頻連續(xù),則可判斷這兩個詞連讀;如果兩個詞之間的靜音時間超過一定的時間閾值,如0.05秒,則可判斷兩個詞之間有停頓;如果一個或多個單詞的能量幅值超過一定能量閾值,則表明這一個或多個單詞重讀。同樣地,也可根據(jù)基頻斜率判斷單詞的升降調特征。
[0032]S103,根據(jù)待測語音數(shù)據(jù)的單詞邊界信息和韻律信息生成待測語音數(shù)據(jù)的韻律標注信息。
[0033]其中,韻律標注信息包括至少一個韻律信息和與至少一個韻律信息分別對應的位置信息,其中,每個位置信息根據(jù)相應的韻律邊界信息確定。韻律標注信息是指標注出語音所對應的文本中正確韻律的位置信息,即標注出文本中哪兩個詞之間連讀、停頓或者哪個詞重讀,韻律標注是作為韻律評估的重要依據(jù)。
[0034]在本發(fā)明的一個實施例中,根據(jù)待測語音數(shù)據(jù)的單詞邊界信息和韻律信息生成待測語音數(shù)據(jù)的韻律標注信息,可具體包括:根據(jù)待測語音數(shù)據(jù)的單詞邊界信息和韻律信息確定待測語音數(shù)據(jù)的韻律邊界信息;根據(jù)待測語音數(shù)據(jù)的韻律邊界信息對待測語音數(shù)據(jù)的韻律信息進行標注,以生成待測語音數(shù)據(jù)的韻律標注信息。
[0035]其中,根據(jù)單詞邊界信息以及單詞對應的韻律信息,即可確定韻律邊界信息,并進一步確定每個韻律信息的位置信息,然后根據(jù)韻律信息的位置信息進行標注。舉例來說,如果單詞A和B連讀,則連讀這個韻律對應的韻律的起始時間幀為單詞A的發(fā)音起始時間幀(或時刻)以及單詞B的發(fā)音結束時間幀(或時刻),并可確定連讀這個韻律對應的位置信息為文本中單詞A和單詞B對應的位置。進而,可根據(jù)每個韻律的位置信息在相應的位置標記相應的韻律信息。
[0036]S104,將待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析,以檢測待測語音數(shù)據(jù)是否存在發(fā)音韻律問題。
[0037]其中,參考語音是指待測語音所跟讀的標準語音。
[0038]在本發(fā)明的實施例中,具體地,可判斷待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息是否滿足以下條件:
[0039]待測語音數(shù)據(jù)的韻律標注信息中標注了參考語音數(shù)據(jù)的韻律標注信息中所標注的全部韻律信息,且所標注的韻律信息對應的位置信息一致;且,待測語音數(shù)據(jù)的韻律標注信息中標注的韻律信息不包括參考語音數(shù)據(jù)的韻律標注信息中未標注的韻律信息。
[0040]如果不滿足,則判斷待測語音數(shù)據(jù)存在發(fā)音韻律問題。
[0041]也就是說,只有在待測語音數(shù)據(jù)包括參考語音數(shù)據(jù)的全部韻律(且對應的韻律邊界信息相同),且待測語音數(shù)據(jù)中不包括參考語音數(shù)據(jù)不具有的韻律時,才判斷待測語音數(shù)據(jù)不存在發(fā)音韻律問題。否則,則待測語音數(shù)據(jù)存在發(fā)音韻律問題。
[0042]進一步地,在本發(fā)明的一個實施例中,當判斷待測語音數(shù)據(jù)存在韻律問題,則根據(jù)比對結果生成發(fā)音韻律問題提示信息,并對用戶進行提示。具體地,可根據(jù)比對結果,判斷待測語音數(shù)據(jù)相對于參考語音數(shù)據(jù)中不相同的韻律(可包括缺少的韻律或者多出的韻律),并針對不相同的韻律對用戶進行提示。從而,能夠及時對用戶進行發(fā)音韻律問題的提示和反饋,便于用戶改進和提高,提升用戶體驗。
[0043]本發(fā)明實施例的發(fā)音韻律問題的檢測方法,通過獲取待測語音數(shù)據(jù)的單詞邊界信息,并提取其韻律信息,以據(jù)此生成待測語音數(shù)據(jù)的韻律標注信息,并與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析來檢測發(fā)音韻律問題,可自動獲取語音的韻律標注信息進行比對,無需人工標注,應用更加靈活、廣泛,尤其在語言學習類軟件中,通過自動檢測語音的韻律,可以更加有效的評估用戶發(fā)音的韻律問題。此外,檢測過程中不需要大容量的數(shù)據(jù)庫,計算量少,提高了檢測效率。
[0044]在本發(fā)明的實施例中,還可包括對參考語音數(shù)據(jù)進行標注,以獲取參考語音數(shù)據(jù)的韻律標注信息的步驟。具體地,如圖2所示,對參考語音數(shù)據(jù)進行標注的方法可包括以下步驟:
[0045]S201,對參考語音數(shù)據(jù)進行解碼,并根據(jù)解碼結果獲取參考語音數(shù)據(jù)的單詞邊界信息。
[0046]在本發(fā)明的一個實施例中,可根據(jù)參考語音數(shù)據(jù)對應的文本內容構建解碼網(wǎng)絡,并將解碼網(wǎng)絡和聲學模型傳給解碼器,然后提取參考語音數(shù)據(jù)的聲學特征,并傳給解碼器進行解碼,使得參考語音數(shù)據(jù)與對應的文本內容進行對齊。根據(jù)對齊結果可獲取參考語音數(shù)據(jù)的單詞邊界信息。
[0047]S202,提取參考語音數(shù)據(jù)的韻律信息。
[0048]具體地,可判斷參考語音數(shù)據(jù)的單詞間有無靜音,基頻是否連續(xù)以及對參考語音數(shù)據(jù)進行多發(fā)音判斷、獲取靜音時長、能量幅值、基頻的斜率等,以提取參考語音數(shù)據(jù)的韻律特征。進一步地,可基于這些韻律特征根據(jù)相應的判斷策略確定參考語音數(shù)據(jù)中的連讀、停頓、重讀、升降調等韻律信息。
[0049]S203,根據(jù)韻律信息和單詞邊界信息確定參考語音數(shù)據(jù)的韻律邊界信息。
[0050]舉例來說,如果單詞A和B連讀,則連讀這個韻律對應的韻律的起始時間幀為單詞A的發(fā)音起始時間幀(或時刻)以及單詞B的發(fā)音結束時間幀(或時刻)。進而,可根據(jù)每個韻律邊界信息在相應的位置標記相應的韻律信息。
[0051]S204,根據(jù)韻律邊界信息對參考語音數(shù)據(jù)進行標注。
[0052]由此,可自動檢測參考語音數(shù)據(jù)的韻律信息,并進行標注,避免了人工標注的繁瑣、誤差等,且一次性標注好后,以后檢測中可重復使用,更加方便、準確。
[0053]為了實現(xiàn)上述實施例,本發(fā)明還提出一種發(fā)音韻律問題的檢測裝置。
[0054]圖3為根據(jù)本發(fā)明一個實施例的發(fā)音韻律問題的檢測裝置的結構示意圖。
[0055]如圖3所示,根據(jù)本發(fā)明實施例的發(fā)音韻律問題的檢測裝置,包括:接收模塊10、獲取模塊20、生成模塊30和檢測模塊40。
[0056]具體地,接收模塊10用于接收待測語音數(shù)據(jù)。舉例來說,待測語音數(shù)據(jù)可以是用戶針對標準的參考語音錄的跟讀語音。
[0057]獲取模塊20用于獲取待測語音數(shù)據(jù)的單詞邊界信息,并提取待測語音數(shù)據(jù)的韻律信息。
[0058]更具體地,在本發(fā)明的一個實施例中,獲取模塊20可首先獲取待測語音數(shù)據(jù)對應的文本內容(例如,跟讀語音所跟讀的文本內容),并根據(jù)該文本內容構建解碼網(wǎng)絡,再將解碼網(wǎng)絡和聲學模型傳給解碼器。其中,聲學模型是語音識別的基礎數(shù)學模型,模型單元可以是音素、音節(jié)或字,目前主流的建模方式是采用隱馬爾科夫建模。解碼器是語音識別系統(tǒng)的核心之一,其任務是對輸入的聲學特征,根據(jù)聲學模型、解碼網(wǎng)絡,尋找該聲學特征對應的概率最大的語言單元序列。解碼網(wǎng)絡又稱語法網(wǎng)絡,是以上述文本內容中的音素(如漢字的韻母、聲母等)、音節(jié)或字為節(jié)點,音素之間的連接關系為弧的有向圖,解碼網(wǎng)絡限定了解碼器輸出語言單元序列的范圍。
[0059]然后,獲取模塊20提取待測語音數(shù)據(jù)的聲學特征傳給解碼器進行解碼,使得待測語音數(shù)據(jù)與對應的文本內容進行對齊。根據(jù)對齊結果可獲取待測語音數(shù)據(jù)的單詞邊界信息。其中,聲學特征是描述短時語音本質特征的一組值,通常是一種固定維數(shù)的特征向量(如39維的MFCC(Mel頻率倒譜系數(shù)的縮寫)特征向量)。單詞邊界信息是指待測語音中單詞起始發(fā)音對應的時間幀(或時刻)到結束發(fā)音對應的時間幀(或時刻),從而,可根據(jù)單詞邊界信息獲取在待測語音數(shù)據(jù)中讀每個單詞所用的時間段,以及單詞之間的時間段。
[0060]最后,獲取模塊20可根據(jù)待測語音數(shù)據(jù)的單詞邊界信息提取待測語音數(shù)據(jù)的韻律信息。語音的韻律主要包括:連讀、意群停頓、重讀、升降調等信息。對于不同韻律的檢測,提取的韻律特征不同。舉例來說,獲取模塊20判斷連讀韻律時,提取的韻律特征包括兩個單詞間有無靜音、基頻是否連續(xù)、能量是否出現(xiàn)低谷等韻律特征;判斷停頓韻律時,提取單詞間的靜音時長等韻律特征;判斷重讀韻律時,提取單詞的能量幅值、基頻等韻律特征;判斷升降調韻律時,提取單詞的基頻斜率等韻律特征。進而,可依據(jù)單詞邊界信息,依次計算每個單詞及單詞間的上述韻律特征,根據(jù)相應的判斷策略確定待測語音中每個單詞的重讀、升降調以及單詞間的連讀、停頓等韻律信息。
[0061]舉例來說,如果兩個單詞之間不存在靜音且基頻連續(xù),則可判斷這兩個詞連讀;如果兩個詞之間的靜音時間超過一定的時間閾值,如0.05秒,則可判斷兩個詞之間有停頓;如果一個或多個單詞的能量幅值超過一定能量閾值,則表明這一個或多個單詞重讀。同樣地,也可根據(jù)基頻斜率判斷單詞的升降調特征。
[0062]生成模塊30用于根據(jù)待測語音數(shù)據(jù)的單詞邊界信息和韻律信息生成待測語音數(shù)據(jù)的韻律標注信息。其中,韻律標注信息包括至少一個韻律信息和與至少一個韻律信息分別對應的位置信息,其中,每個位置信息根據(jù)相應的韻律邊界信息確定。韻律標注信息是指標注出語音所對應的文本中正確韻律的位置信息,即標注出文本中哪兩個詞之間連讀、停頓或者哪個詞重讀,韻律標注是作為韻律評估的重要依據(jù)。
[0063]在本發(fā)明的一個實施例中,生成模塊30具體用于:根據(jù)待測語音數(shù)據(jù)的單詞邊界信息和韻律信息確定待測語音數(shù)據(jù)的韻律邊界信息;根據(jù)待測語音數(shù)據(jù)的韻律邊界信息對待測語音數(shù)據(jù)的韻律信息進行標注,以生成待測語音數(shù)據(jù)的韻律標注信息。
[0064]其中,根據(jù)單詞邊界信息以及單詞對應的韻律信息,即可確定韻律邊界信息,并進一步確定每個韻律信息的位置信息,然后根據(jù)韻律信息的位置信息進行標注。舉例來說,如果單詞A和B連讀,則連讀這個韻律對應的韻律的起始時間幀為單詞A的發(fā)音起始時間幀(或時刻)以及單詞B的發(fā)音結束時間幀(或時刻),并可確定連讀這個韻律對應的位置信息為文本中單詞A和單詞B對應的位置。進而,可根據(jù)每個韻律的位置信息在相應的位置標記相應的韻律信息。
[0065]檢測模塊40用于將待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析,以檢測待測語音數(shù)據(jù)是否存在發(fā)音韻律問題。其中,參考語音是指待測語音所跟讀的標準語音。
[0066]在本發(fā)明的實施例中,檢測模塊40具體用于:判斷待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息是否滿足以下條件:待測語音數(shù)據(jù)的韻律標注信息中標注了參考語音數(shù)據(jù)的韻律標注信息中所標注的全部韻律信息,且所標注的韻律信息對應的位置信息一致;且,待測語音數(shù)據(jù)的韻律標注信息中標注的韻律信息不包括參考語音數(shù)據(jù)的韻律標注信息中未標注的韻律信息;如果不滿足,則判斷待測語音數(shù)據(jù)存在發(fā)音韻律問題。
[0067]也就是說,只有在待測語音數(shù)據(jù)包括參考語音數(shù)據(jù)的全部韻律(且對應的韻律邊界信息相同),且待測語音數(shù)據(jù)中不包括參考語音數(shù)據(jù)不具有的韻律時,才判斷待測語音數(shù)據(jù)不存在發(fā)音韻律問題。否則,則待測語音數(shù)據(jù)存在發(fā)音韻律問題。
[0068]本發(fā)明實施例的發(fā)音韻律問題的檢測裝置,通過獲取待測語音數(shù)據(jù)的單詞邊界信息,并提取其韻律信息,以據(jù)此生成待測語音數(shù)據(jù)的韻律標注信息,并與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析來檢測發(fā)音韻律問題,可自動獲取語音的韻律標注信息進行比對,無需人工標注,應用更加靈活、廣泛,尤其在語言學習類軟件中,通過自動檢測語音的韻律,可以更加有效的評估用戶發(fā)音的韻律問題。此外,檢測過程中不需要大容量的數(shù)據(jù)庫,計算量少,提高了檢測效率。
[0069]圖4為根據(jù)本發(fā)明一個具體實施例的發(fā)音韻律問題的檢測裝置的結構示意圖。
[0070]如圖4所示,根據(jù)本發(fā)明實施例的發(fā)音韻律問題的檢測裝置,包括:接收模塊10、獲取模塊20、生成模塊30、檢測模塊40和標注模塊50。
[0071]具體地,標注模塊50用于對參考語音數(shù)據(jù)進行標注,以獲取參考語音數(shù)據(jù)的韻律標注信息。
[0072]在本發(fā)明的一個實施例中,標注模塊50可具體用于:對參考語音數(shù)據(jù)進行解碼,并根據(jù)解碼結果獲取參考語音數(shù)據(jù)的單詞邊界信息;提取參考語音數(shù)據(jù)的韻律信息;根據(jù)韻律信息和單詞邊界信息確定參考語音數(shù)據(jù)的韻律邊界信息;根據(jù)韻律邊界信息對參考語音數(shù)據(jù)進行標注。
[0073]更具體地,標注模塊50可根據(jù)參考語音數(shù)據(jù)對應的文本內容構建解碼網(wǎng)絡,并將解碼網(wǎng)絡和聲學模型傳給解碼器,然后提取參考語音數(shù)據(jù)的聲學特征,并傳給解碼器進行解碼,使得參考語音數(shù)據(jù)與對應的文本內容進行對齊。根據(jù)對齊結果可獲取參考語音數(shù)據(jù)的單詞邊界信息。
[0074]然后,標注模塊50可判斷參考語音數(shù)據(jù)的單詞間有無靜音,基頻是否連續(xù)以及對參考語音數(shù)據(jù)進行多發(fā)音判斷、獲取靜音時長、能量幅值、基頻的斜率等,以提取參考語音數(shù)據(jù)的韻律特征。進一步地,可基于這些韻律特征根據(jù)相應的判斷策略確定參考語音數(shù)據(jù)中的連讀、停頓、重讀、升降調等韻律信息。
[0075]由此,可自動檢測參考語音數(shù)據(jù)的韻律信息,并進行標注,避免了人工標注的繁瑣、誤差等,且一次性標注好后,以后檢測中可重復使用,更加方便、準確。
[0076]圖5為根據(jù)本發(fā)明又一個實施例的發(fā)音韻律問題的檢測裝置的結構示意圖。
[0077]如圖5所示,根據(jù)本發(fā)明實施例的發(fā)音韻律問題的檢測裝置,包括:接收模塊10、獲取模塊20、生成模塊30、檢測模塊40、標注模塊50和提示模塊60。
[0078]具體地,提示模塊60用于當判斷待測語音數(shù)據(jù)在存在韻律問題時,根據(jù)比對結果生成發(fā)音韻律問題提示信息,并對用戶進行提示。更具體地,提示模塊60用可根據(jù)比對結果,判斷待測語音數(shù)據(jù)相對于參考語音數(shù)據(jù)中不相同的韻律(可包括缺少的韻律或者多出的韻律),并針對不相同的韻律對用戶進行提示。
[0079]由此,本發(fā)明實施例的發(fā)音韻律問題的檢測裝置,能夠及時對用戶進行發(fā)音韻律問題的提示和反饋,便于用戶改進和提高,提升用戶體驗。
[0080]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本發(fā)明的實施例所屬【技術領域】的技術人員所理解。
[0081]在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質中,以供指令執(zhí)行系統(tǒng)、裝置或設備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設備取指令并執(zhí)行指令的系統(tǒng))使用,或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用。就本說明書而言,"計算機可讀介質"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設備或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用的裝置。計算機可讀介質的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(ROM),可擦除可編輯只讀存儲器(EPR0M或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(⑶ROM)。另外,計算機可讀介質甚至可以是可在其上打印所述程序的紙或其他合適的介質,因為可以例如通過對紙或其他介質進行光學掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
[0082]應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
[0083]本【技術領域】的普通技術人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
[0084]此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。
[0085]上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。
[0086]在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
[0087]盡管已經示出和描述了本發(fā)明的實施例,本領域的普通技術人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由權利要求及其等同限定。
【權利要求】
1.一種發(fā)音韻律問題的檢測方法,其特征在于,包括: 接收待測語音數(shù)據(jù); 獲取所述待測語音數(shù)據(jù)的單詞邊界信息,并提取所述待測語音數(shù)據(jù)的韻律信息;根據(jù)所述待測語音數(shù)據(jù)的單詞邊界信息和韻律信息生成所述待測語音數(shù)據(jù)的韻律標注信息; 將所述待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析,以檢測所述待測語音數(shù)據(jù)是否存在發(fā)音韻律問題。
2.如權利要求1所述的發(fā)音韻律問題的檢測方法,其特征在于,還包括: 對所述參考語音數(shù)據(jù)進行標注,以獲取所述參考語音數(shù)據(jù)的韻律標注信息。
3.如權利要求2所述的發(fā)音韻律問題的檢測方法,其特征在于,所述對所述參考語音數(shù)據(jù)進行標注,具體包括: 對所述參考語音數(shù)據(jù)進行解碼,并根據(jù)解碼結果獲取所述參考語音數(shù)據(jù)的單詞邊界信息; 提取所述參考語音數(shù)據(jù)的韻律信息; 根據(jù)所述韻律信息和所述單詞邊界信息確定所述參考語音數(shù)據(jù)的韻律邊界信息; 根據(jù)所述韻律邊界信息對所述參考語音數(shù)據(jù)進行標注。
4.如權利要求1所述的發(fā)音韻律問題的檢測方法,其特征在于,所述根據(jù)所述待測語音數(shù)據(jù)的單詞邊界信息和韻律信息生成所述待測語音數(shù)據(jù)的韻律標注信息,具體包括: 根據(jù)所述待測語音數(shù)據(jù)的單詞邊界信息和韻律信息確定所述待測語音數(shù)據(jù)的韻律邊界信息; 根據(jù)所述待測語音數(shù)據(jù)的韻律邊界信息對所述待測語音數(shù)據(jù)的韻律信息進行標注,以生成所述待測語音數(shù)據(jù)的韻律標注信息。
5.如權利要求1-4任一項所述的發(fā)音韻律問題的檢測方法,其特征在于,所述韻律標注信息包括至少一個韻律信息和與所述至少一個韻律信息分別對應的位置信息,其中,每個所述位置信息根據(jù)相應的韻律邊界信息確定。
6.如權利要求5所述的發(fā)音韻律問題的檢測方法,其特征在于,所述將所述待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析,具體包括: 判斷所述待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息是否滿足以下條件: 所述待測語音數(shù)據(jù)的韻律標注信息中標注了所述參考語音數(shù)據(jù)的韻律標注信息中所標注的全部韻律信息,且所標注的韻律信息對應的位置信息一致; 且,所述待測語音數(shù)據(jù)的韻律標注信息中標注的韻律信息不包括所述參考語音數(shù)據(jù)的韻律標注信息中未標注的韻律信息; 如果不滿足,則判斷所述待測語音數(shù)據(jù)存在發(fā)音韻律問題。
7.如權利要求1所述的發(fā)音韻律問題的檢測方法,其特征在于,還包括: 當判斷所述待測語音數(shù)據(jù)存在韻律問題,則根據(jù)比對結果生成發(fā)音韻律問題提示信息,并對用戶進行提示。
8.一種發(fā)音韻律問題的檢測裝置,其特征在于,包括: 接收模塊,用于接收待測語音數(shù)據(jù); 獲取模塊,用于獲取所述待測語音數(shù)據(jù)的單詞邊界信息,并提取所述待測語音數(shù)據(jù)的韻律信息; 生成模塊,用于根據(jù)所述待測語音數(shù)據(jù)的單詞邊界信息和韻律信息生成所述待測語音數(shù)據(jù)的韻律標注信息; 檢測模塊,用于將所述待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息進行比對分析,以檢測所述待測語音數(shù)據(jù)是否存在發(fā)音韻律問題。
9.如權利要求8所述的發(fā)音韻律問題的檢測裝置,其特征在于,還包括: 標注模塊,用于對所述參考語音數(shù)據(jù)進行標注,以獲取所述參考語音數(shù)據(jù)的韻律標注信息。
10.如權利要求9所述的發(fā)音韻律問題的檢測裝置,其特征在于,所述標注模塊具體用于: 對所述參考語音數(shù)據(jù)進行解碼,并根據(jù)解碼結果獲取所述參考語音數(shù)據(jù)的單詞邊界信息; 提取所述參考語音數(shù)據(jù)的韻律信息; 根據(jù)所述韻律信息和所述單詞邊界信息確定所述參考語音數(shù)據(jù)的韻律邊界信息; 根據(jù)所述韻律邊界信息對所述參考語音數(shù)據(jù)進行標注。
11.如權利要求8所述的發(fā)音韻律問題的檢測裝置,其特征在于,所述生成模塊具體用于: 根據(jù)所述待測語音數(shù)據(jù)的單詞邊界信息和韻律信息確定所述待測語音數(shù)據(jù)的韻律邊界信息; 根據(jù)所述待測語音數(shù)據(jù)的韻律邊界信息對所述待測語音數(shù)據(jù)的韻律信息進行標注,以生成所述待測語音數(shù)據(jù)的韻律標注信息。
12.如權利要求8-11任一項所述的發(fā)音韻律問題的檢測裝置,其特征在于,所述韻律標注信息包括至少一個韻律信息和與所述至少一個韻律信息分別對應的位置信息,其中,每個所述位置信息根據(jù)相應的韻律邊界信息確定。
13.如權利要求12所述的發(fā)音韻律問題的檢測裝置,其特征在于,所述檢測模塊具體用于: 判斷所述待測語音的韻律標注信息與預先標注的參考語音數(shù)據(jù)的韻律標注信息是否滿足以下條件: 所述待測語音數(shù)據(jù)的韻律標注信息中標注了所述參考語音數(shù)據(jù)的韻律標注信息中所標注的全部韻律信息,且所標注的韻律信息對應的位置信息一致; 且,所述待測語音數(shù)據(jù)的韻律標注信息中標注的韻律信息不包括所述參考語音數(shù)據(jù)的韻律標注信息中未標注的韻律信息。
14.如權利要求8所述的發(fā)音韻律問題的檢測裝置,其特征在于,還包括: 提示模塊,用于當判斷所述待測語音數(shù)據(jù)在存在韻律問題時,根據(jù)比對結果生成發(fā)音韻律問題提示信息,并對用戶進行提示。
【文檔編號】G10L25/78GK104464751SQ201410674294
【公開日】2015年3月25日 申請日期:2014年11月21日 優(yōu)先權日:2014年11月21日
【發(fā)明者】張儒瑞, 趙乾, 潘頌聲, 宋碧霄, 吳玲 申請人:科大訊飛股份有限公司