亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音合成模型的訓練方法及裝置的制造方法

文檔序號:9397881閱讀:502來源:國知局
語音合成模型的訓練方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明實施例涉及語音合成技術領域,尤其涉及一種語音合成模型的訓練方法及
目.0
【背景技術】
[0002]隨著多媒體通信技術的不斷發(fā)展,作為人機通信重要方式之一的語音合成技術以其方便、快捷的優(yōu)點收到了研究者的廣泛關注。語音合成的目標是使合成的語音可懂、清晰、自然而富有表現(xiàn)力。為了使合成的語音更加清晰、自然、富有表現(xiàn)力,現(xiàn)有的語音合成系統(tǒng)一般都會選擇一個目標發(fā)音人,錄制這個目標發(fā)音人的大量的發(fā)音數(shù)據,并將這些發(fā)音數(shù)據作為語音合成的基礎數(shù)據。這種方式的優(yōu)點在于,合成語音的音質、音色會與發(fā)音人本身發(fā)出的語音更為相似,其清晰度和自然度會大大提高,但缺點在于,用于語音合成的基礎語料的規(guī)模太大,這些基礎數(shù)據的采集工作也需要耗費大量的物力、財力。
[0003]現(xiàn)有的使用少量錄音數(shù)據的語音合成方法可以大致分為直接建模方法和自適應建模方法兩類。直接建模的處理方法和大數(shù)據的一致,即直接使用常規(guī)大數(shù)據的建模方法對文本特征和聲學特征進行映射建模,其方法包括隱馬爾科夫模型(Hidden markovmodel, HMM)和深度神經網絡(Deep neural network, DNN)等。這種建模方法本身不考慮所處理的數(shù)據規(guī)模。其結果是,因為少量數(shù)據在語境信息上的覆蓋有限,學習得到的模型合成與訓練數(shù)據相差較大的文本時合成效果會下降很多。
[0004]自適應建模方法主要基于HMM模型,其方案是首先收集多名基礎發(fā)音人的大量發(fā)音數(shù)據訓練基礎模型,然后使用受限最大似然線性回歸(Constrained maximumlikelihood linear regress1n,CMLLR)等技術將基礎模型自適應到個性化語音的少量數(shù)據上。依照這種方法訓練出來的個性化模型合成效果不穩(wěn)定,音質較差,和個性化發(fā)音人本身的音色相差較遠。綜上所述,現(xiàn)有的使用少量錄音數(shù)據的語音合成方法普遍存在著合成語音質量較差的問題。

【發(fā)明內容】

[0005]針對上述技術問題,本發(fā)明實施例提供了一種語音合成模型的訓練方法及裝置,以提高使用少量樣本語料數(shù)據的語音合成系統(tǒng)的合成語音質量。
[0006]第一方面,本發(fā)明實施例提供了一種語音合成模型的訓練方法,所述方法包括:
[0007]初始化將用于語音合成的深層神經網絡模型;
[0008]利用從至少一個發(fā)音人的大規(guī)模語料數(shù)據中提取的文本特征及聲學特征,訓練經過初始化的深層神經網絡模型,以得到初步的深層神經網絡模型;
[0009]利用從目標發(fā)音人的小規(guī)模語料數(shù)據中提取的文本特征及聲學特征,訓練所述初步的深層神經網絡模型,以得到最終應用于語音合成的深層神經網絡模型。
[0010]第二方面,本發(fā)明實施例還提供了一種語音合成模型的訓練裝置,所述裝置包括:
[0011]初始化模塊,用于初始化將用于語音合成的深層神經網絡模型;
[0012]初步訓練模塊,用于利用從至少一個發(fā)音人的大規(guī)模語料數(shù)據中提取的文本特征及聲學特征,訓練經過初始化的深層神經網絡模型,以得到初步的深層神經網絡模型;
[0013]個性化訓練模塊,用于利用從目標發(fā)音人的小規(guī)模語料數(shù)據中提取的文本特征及聲學特征,訓練所述初步的深層神經網絡模型,以得到最終應用于語音合成的深層神經網絡模型。
[0014]本發(fā)明實施例提供的語音合成模型的訓練方法和裝置,通過初始化將用于語音合成的深層神經網絡模型,利用從至少一個發(fā)音人的大規(guī)模語料數(shù)據中提取的文本特征及聲學特征,訓練經過初始化的深層神經網絡模型,以及利用從目標發(fā)音人的小規(guī)模語料數(shù)據中提取的文本特征及聲學特征,訓練所述初步的深層神經網絡模型,得到了最終應用于語音合成的深層神經網絡模型,從而提高了使用少量樣本語料數(shù)據的語音合成系統(tǒng)的合成語音質量。
【附圖說明】
[0015]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0016]圖1是本發(fā)明第一實施例提供的語音合成模型的訓練方法的流程圖;
[0017]圖2是本發(fā)明第一實施例提供的深層神經網絡模型的結構示意圖;
[0018]圖3是本發(fā)明第二實施例提供的語音合成模型的訓練方法中初步訓練的流程圖;
[0019]圖4是本發(fā)明第三實施例提供的語音合成模型的訓練方法中個性化訓練的流程圖;
[0020]圖5是本發(fā)明第四實施例提供的語音合成模型的訓練方法的流程示意圖;
[0021]圖6是本發(fā)明第五實施例提供的語音合成模型的訓練裝置的結構圖。
【具體實施方式】
[0022]下面結合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關的部分而非全部結構。
[0023]第一實施例
[0024]本實施例提供了語音合成模型的訓練方法的一種技術方案。所述語音合成模型的訓練方法由語音合成模型的訓練裝置執(zhí)行。
[0025]參見圖1,所述語音合成模型的訓練方法包括:
[0026]S11,初始化將用于語音合成的深層神經網絡(Deep neural network, DNN)模型。
[0027]在本發(fā)明中,使用一個深層神經網絡作為用來預測合成語音的聲學參數(shù)的預測模型,也就是語音合成模型。從本質上來講,深層神經網絡是一個多層感知器(Multilayerperceptron,MLP)。圖2示出了本發(fā)明所采用的深層神經網絡的拓撲結構。參見圖2,所述深層神經網絡至少包括一個輸入層21,用于獲取輸入參數(shù)。所述深層神經網絡還至少包括一個輸出層23,用于對外輸出作為預測結果的輸出參數(shù)。另外,所述深層神經網絡還包括至少兩個隱藏層22。每個隱藏層接收前一層的運算結果,經過自身的運算,對下一層輸出本層的運算結果。
[0028]在聲學參數(shù)預測的場景下,所述深層神經網絡的輸入參數(shù)是對輸入文本進行文本分析而得到的各種文本特征。所述文本分析可以是詞法分析,或者句法分析。所述文本特征包括:音子序列、詞性、詞長以及韻律停頓。
[0029]所述輸出參數(shù)是預測得到的聲學參數(shù)。所述聲學參數(shù)包括:譜參數(shù)、時長以及基頻。
[0030]可以理解的是,期望所述深層神經網絡模型能夠針對不同的輸入文本給出自然、準確的輸出語音,需要利用包括大量語音數(shù)據的訓練語料對其進行訓練。而期望所述深層神經網絡模型給出與目標發(fā)音人的自然語音相類似的合成語音,需要利用發(fā)音人的語音樣本對所述深層神經網絡模型進行訓練。
[0031]而在具體執(zhí)行上述訓練操作之前,需要對所述深層神經網絡模型進行初始化。具體的,上述初始化的操作可以包括對所述深層神經網絡中不同神經元的初始化,所述深層神經網絡的拓撲結構的搭建,以及所述深層神經網絡上各種參數(shù)的初始化。
[0032]S12,利用從至少一個發(fā)音人的大規(guī)模語料數(shù)據中提取的文本特征及聲學特征,訓練經過初始化的深層神經網絡模型,以得到初步的深層神經網絡模型。
[0033]經過初始化操作之后,利用大規(guī)模語料數(shù)據對經過初始化的所述深層神經網絡模型進行訓練。所述大規(guī)模語料數(shù)據不僅包括語音數(shù)據,還包括語音數(shù)據對應的輸入文本。而且,所述語音數(shù)據通常情況下并不來源與同一個發(fā)音人。
[0034]所述大規(guī)模語料數(shù)據的數(shù)據規(guī)模是相對較大的。具體來說,所述大規(guī)模語料數(shù)據中包含的語音數(shù)
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1