本發(fā)明涉及聲音檢測
技術領域:
,特別是指一種基于聲調核聲學特征及深度神經(jīng)網(wǎng)絡的韻律邊界檢測方法。
背景技術:
:近年來,人們在進行言語交際的時候,除了字面的文字信息之外,話語韻律變化也是相互傳遞的一個重要信息。合理有效地組織話語韻律結構不僅有助于說話者更清楚地表達,而且聽話者也能夠更清楚、準確地理解說話人的意圖。從語音學角度來看,韻律間斷或韻律邊界表示相鄰音節(jié)的疏遠程度。韻律邊界通常是將一串語流切分成大小不同的韻律單元,如韻律詞、韻律短語等。它不僅減輕人腦理解加工的負擔,也方便機器處理。韻律邊界在人類言語表達的自然度和可理解度方面扮演著非常重要的角色。近年來,由于韻律邊界信息在語音合成、語音理解等領域起到重要的作用,越來越多的人關注韻律邊界的自動檢測。技術實現(xiàn)要素:本發(fā)明要解決的技術問題是提供一種基于聲調核聲學特征及深度神經(jīng)網(wǎng)絡的韻律邊界檢測方法,能夠提高韻律邊界檢測的準確率。為解決上述技術問題,本發(fā)明的實施例提供一種基于聲調核聲學特征及深度神經(jīng)網(wǎng)絡的韻律邊界檢測方法,所述基于聲調核聲學特征及深度神經(jīng)網(wǎng)絡的韻律邊界檢測方法包括:檢測并獲取音節(jié)中聲調核聲學特征;基于深度神經(jīng)網(wǎng)絡利用聲調核聲學特征建立韻律邊界建模對韻律邊界進行檢測。優(yōu)選的,所述檢測并獲取音節(jié)中聲調核聲學特征,包括:提取聲調核候選軌跡對應的韻律特征;從聲調核候選軌跡中選擇聲調核聲學特征。優(yōu)選的,所述提取聲調核候選軌跡對應的韻律特征,包括:使用分段K-means算法聚類聲調核候選基頻軌跡;當聲調核候選基頻軌跡符合候選基頻斜率等均值假設時合并相鄰的分段,得到分割后的基頻曲線。優(yōu)選的,所述從聲調核候選軌跡中選擇聲調核聲學特征,包括:對于分割后的基頻曲線只有兩段的,利用線性判別分析方法建立區(qū)分函數(shù)預測聲調核的位置;對于分割后的基頻曲線有三段的,當中間段大于50ms時,中間段為調核段;當中間段小于50ms時,將分割后的基頻曲線的段數(shù)減少到兩段,利用線性判別分析方法建立區(qū)分函數(shù)預測聲調核的位置。優(yōu)選的,所述基于深度神經(jīng)網(wǎng)絡利用聲調核聲學特征建立韻律邊界建模對韻律邊界進行檢測,包括:對應于所提取的聲調核聲學特征在給定觀測向量o條件下,L-層的MLP用來對輸出標簽llabel的后驗概率P(llabel|o)進行建模。優(yōu)選的,所述對應于所提取的聲調核聲學特征在給定觀測向量o條件下,L-層的MLP用來對輸出標簽llabel的后驗概率P(llabel|o)進行建模,包括:第一層為原始特征輸入層,2...L-1層為隱含層,每個隱含層在給定上一層輸入向量vl對隱層節(jié)點hl的后驗概率進行建模,最頂層L用softmax來計算所有標簽的后驗概率:Zl(vl)=(Wl)Tvl+al其中,Wl和al表示對于隱層l的權重矩陣和偏置向量,和分別表示第l層的第j個組件和它對應的激活函數(shù)值。優(yōu)選的,所述聲調核聲學特征包括:音節(jié)調核部分音高特征和音節(jié)調核部分能量特征。優(yōu)選的,所述音節(jié)調核部分音高特征包括:用f(x)=a+bx+cx2來擬合調核部分基頻曲線,{a,b,c}來表示基頻輪廓特征;PMax:調核部分音高最大值;PMin:調核部分音高最小值;PRange:調核部分音高范圍;PMean:調核部分音高均值;PMRatio:調核音高均值與其后音節(jié)調核音高均值比值;PRatio:調核音高曲線的最后一個基頻值與該音節(jié)之后音節(jié)調核部分第一個基頻值得比值;Delta_Max:調核音高最大值與其后音節(jié)調核音高最大值之間的差值;Delta_Min:調核音高最小值與其后音節(jié)調核音高最小值之間的差值;所述音節(jié)調核部分能量特征包括:EgMax:調核部分能量最大值;EgMin:調核部分能量最小值;EgRange:調核部分能量的范圍;EgMean:調核部分能量的均值;EgRatio:調核部分能量的均值與其后音節(jié)調核部分能量的比值。優(yōu)選的,所述檢測并獲取音節(jié)中聲調核聲學特征,包括:檢測并獲取音節(jié)中聲調核聲學特征和音節(jié)部分的時長特征;所述基于深度神經(jīng)網(wǎng)絡利用聲調核聲學特征建立韻律邊界建模對韻律邊界進行檢測,包括:基于深度神經(jīng)網(wǎng)絡利用音節(jié)中聲調核聲學特征和音節(jié)部分的時長特征建立韻律邊界建模對韻律邊界進行檢測。本發(fā)明的上述技術方案的有益效果如下:上述方案中,通過檢測并獲取音節(jié)聲調核部分的聲學特征和時長特征,并基于深度神經(jīng)網(wǎng)絡利用音節(jié)聲調核部分的聲學特征和時長特征建立韻律邊界建模對韻律邊界進行檢測,能夠有效提高韻律邊界檢測的正確率。附圖說明圖1為本發(fā)明實施例的基于聲調核聲學特征及深度神經(jīng)網(wǎng)絡的韻律邊界檢測方法流程圖圖2為本發(fā)明實施例的不同網(wǎng)絡拓撲結構只使用調核部分聲學特征的深度神經(jīng)網(wǎng)絡系統(tǒng)檢測性能示意圖。具體實施方式為使本發(fā)明要解決的技術問題、技術方案和優(yōu)點更加清楚,下面將結合附圖及具體實施例進行詳細描述。如圖1所示,本發(fā)明實施例的一種基于聲調核聲學特征及深度神經(jīng)網(wǎng)絡的韻律邊界檢測方法,所述基于聲調核聲學特征及深度神經(jīng)網(wǎng)絡的韻律邊界檢測方法包括:步驟101:檢測并獲取音節(jié)中聲調核聲學特征。其中,所述檢測并獲取音節(jié)中聲調核聲學特征,包括:提取聲調核候選軌跡對應的韻律特征;具體的,使用分段K-means算法聚類聲調核候選基頻軌跡;當聲調核候選基頻軌跡符合候選基頻斜率等均值假設時合并相鄰的分段,得到分割后的基頻曲線。從聲調核候選軌跡中選擇聲調核聲學特征。具體的,對于分割后的基頻曲線只有兩段的,利用線性判別分析方法建立區(qū)分函數(shù)預測聲調核的位置;對于分割后的基頻曲線有三段的,當中間段大于50ms時,中間段為調核段;當中間段小于50ms時,將分割后的基頻曲線的段數(shù)減少到兩段,利用線性判別分析方法建立區(qū)分函數(shù)預測聲調核的位置。步驟102:基于深度神經(jīng)網(wǎng)絡利用聲調核聲學特征建立韻律邊界建模對韻律邊界進行檢測。其中,可以對應于所提取的聲調核聲學特征在給定觀測向量o條件下,L-層的MLP用來對輸出標簽llabel的后驗概率P(llabel|o)進行建模。具體的,第一層為原始特征輸入層,2...L-1層為隱含層,每個隱含層在給定上一層輸入向量vl對隱層節(jié)點hl的后驗概率進行建模,最頂層L用softmax來計算所有標簽的后驗概率:Zl(vl)=(Wl)Tvl+al其中,Wl和al表示對于隱層l的權重矩陣和偏置向量,和分別表示第l層的第j個組件和它對應的激活函數(shù)值。優(yōu)選的,可以檢測并獲取音節(jié)中聲調核聲學特征和音節(jié)部分的時長特征;基于深度神經(jīng)網(wǎng)絡利用音節(jié)中聲調核聲學特征和音節(jié)部分的時長特征建立韻律邊界建模對韻律邊界進行檢測。本發(fā)明實施例的基于聲調核聲學特征及深度神經(jīng)網(wǎng)絡的韻律邊界檢測方法,通過檢測并獲取音節(jié)聲調核部分的聲學特征和時長特征,并基于深度神經(jīng)網(wǎng)絡利用音節(jié)聲調核部分的聲學特征和時長特征建立韻律邊界建模對韻律邊界進行檢測,能夠有效提高韻律邊界檢測的正確率。本發(fā)明實施例的基于聲調核聲學特征及深度神經(jīng)網(wǎng)絡的韻律邊界檢測方法,所述聲調核聲學特征包括:音節(jié)調核部分音高特征和音節(jié)調核部分能量特征。所述音節(jié)調核部分音高特征可以包括:用f(x)=a+bx+cx2來擬合調核部分基頻曲線,{a,b,c}來表示基頻輪廓特征;PMax:調核部分音高最大值;PMin:調核部分音高最小值;PRange:調核部分音高范圍;PMean:調核部分音高均值;PMRatio:調核音高均值與其后音節(jié)調核音高均值比值;PRatio:調核音高曲線的最后一個基頻值與該音節(jié)之后音節(jié)調核部分第一個基頻值得比值;Delta_Max:調核音高最大值與其后音節(jié)調核音高最大值之間的差值;Delta_Min:調核音高最小值與其后音節(jié)調核音高最小值之間的差值;所述音節(jié)調核部分能量特征可以包括:EgMax:調核部分能量最大值;EgMin:調核部分能量最小值;EgRange:調核部分能量的范圍;EgMean:調核部分能量的均值;EgRatio:調核部分能量的均值與其后音節(jié)調核部分能量的比值。本發(fā)明實施例的基于聲調核聲學特征及深度神經(jīng)網(wǎng)絡的韻律邊界檢測方法,采用以下方式進行試驗:實驗語料ASCCD語料由語篇語料、語音數(shù)據(jù)和語音學標注信息組成,內容包括18篇文章。語音數(shù)據(jù)由10位北京地區(qū)標準普通話發(fā)音人錄制而成。聲音文件采用16kHz采樣、16bit數(shù)據(jù)。雙聲道WAV格式存儲。語音學標注信息采用人工標注方法完成,內容包括拼音、聲韻母、韻律間斷、重音等。語音學標注信息采用C-TOBI相應符號,利用praat軟件完成標注。標注文件中標注了四層信息,我們主要關注第三層間斷指數(shù)層(BI)。間斷指數(shù)數(shù)值劃分:0(缺省值,未標出),韻律詞內的音節(jié)邊界;1,韻律詞間斷;2,次要韻律短語(minorphrase)間斷;3,主要韻律短語(majorphrase)間斷;4,語調組間斷。具體分布如表1所示。表1:ASCCD中各間斷的分布情況。總數(shù)B0B1B2B3B4876286151816334844274494072100%62.9%16.7%8.6%7.6%4.2%本文實驗選擇每個說話人的前58個段子綜合為訓練集,其余的作為測試集。其中訓練集的10%用來作為驗證集。實驗配置我們的基線系統(tǒng)是采用音節(jié)層級的聲學特征。在訓練深度神經(jīng)網(wǎng)絡模型時,我們采用Keras工具包,為了得到最佳的性能,我們對比了不同的隱層數(shù)和節(jié)點數(shù)(1,2,3,4層以及384,512,1024節(jié)點數(shù))在驗證集上的結果,調參結果如圖2所示。最終我們的DNN網(wǎng)絡結構為:a)20個單元的輸入層;b)3個隱層,每個隱層包含512個sigmod單元;c)有5個softmax單元的輸出層。DNN在訓練時迭代100次,使用隨機梯度下降(SGD)進行參數(shù)調整,批處理大小為128,在輸入層的dropout為20%,隱層的dropout為40%,目標函數(shù)是交叉熵。實驗結果對比組采用的特征包括聲學特征、詞典以及語法等方面的特征,采用決策樹作為建模模型。本發(fā)明實施例采用的的基線系統(tǒng)是使用整個音節(jié)部分的聲學特征,采用DNN為建模模型。實驗結果如表2所示。表2:不同系統(tǒng)的各間斷檢測性能比較(SY表示音節(jié),TN表示調核,下同)(%)系統(tǒng)B0B1B2B3B4SY-CART[5]90.948.650.980.861.7SY-DNN96.121.244.175.374.6TN-DNN96.122.647.683.675.1表3:不同系統(tǒng)的間斷檢測整體性能比較(%)系統(tǒng)SY-CART[5]SY-DNNTN-DNN正確率78.376.577.34通過表2我們可以看到,使用調核部分聲學特征的DNN系統(tǒng)在除B0外的各個間斷層級上的檢測正確率都要優(yōu)于只使用整個音節(jié)聲學特征的系統(tǒng)。B0之所以沒有提高的原因可能是因為B0間斷一般出現(xiàn)在詞內,容易受到協(xié)同發(fā)音的影響使得聲調難以達到相應的標準模式,這也導致基于調核模型計算相應參數(shù)時缺少了針對性。而其他層級的間斷,基于聲調核模型在計算邊界檢測相應參數(shù)(基頻重設和調階等)更加精確。同時在表3中,只使用調核部分的聲學特征相對于使用整個音節(jié)的聲學特征的檢測性能相對提升了4%。這說明了我們使用的調核思想在韻律邊界檢測是有幫助的。本發(fā)明提出了基于深度神經(jīng)網(wǎng)絡使用調核部分的聲學特征進行韻律邊界自動檢測方法,并通過實驗驗證了該方法的有效性。還可以將會把詞典和語法特征也加入到韻律間斷檢測方法中,并且加大語料庫來得到魯棒性更強的模型。以上所述是本發(fā)明的優(yōu)選實施方式,應當指出,對于本
技術領域:
的普通技術人員來說,在不脫離本發(fā)明所述原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。當前第1頁1 2 3