聲學(xué)模型的生成方法和裝置及語音合成方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音合成技術(shù)領(lǐng)域,尤其涉及一種聲學(xué)模型的生成方法和裝置及語音合成方法和裝置。
【背景技術(shù)】
[0002]語音合成,又稱文語轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實(shí)時轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。在語音合成時,首先需要對輸入的文本進(jìn)行處理,包括預(yù)處理、分詞、詞性標(biāo)注、注音、韻律層級預(yù)測等,然后通過聲學(xué)模型生成聲學(xué)參數(shù),最后利用聲學(xué)參數(shù)直接通過聲碼器合成聲音或者從錄音語料庫中挑選單元進(jìn)行拼接。
[0003]現(xiàn)有技術(shù)中,聲學(xué)模型的生成流程耗費(fèi)時間長,也不能滿足個性化需求。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005]為此,本發(fā)明的一個目的在于提出一種聲學(xué)模型的生成方法,該方法可以提高生成聲學(xué)模型的速度,并且可以滿足用戶的個性化需求。
[0006]本發(fā)明的另一個目的在于提出一種聲學(xué)模型的生成裝置。
[0007]本發(fā)明的另一個目的在于提出一種語音合成方法。
[0008]本發(fā)明的另一個目的在于提出一種語音合成裝置。
[0009]為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的聲學(xué)模型的生成方法,包括:獲取個性化數(shù)據(jù),所述個性化數(shù)據(jù)是根據(jù)個性化語音數(shù)據(jù)和對應(yīng)的個性化文本數(shù)據(jù)進(jìn)行處理后得到的;獲取預(yù)先生成的基準(zhǔn)聲學(xué)模型,所述基準(zhǔn)聲學(xué)模型是根據(jù)已有的大規(guī)模樣本生成的;根據(jù)所述個性化數(shù)據(jù)和所述基準(zhǔn)聲學(xué)模型進(jìn)行自適應(yīng)模型訓(xùn)練,生成個性化聲學(xué)模型。
[0010]本發(fā)明第一方面實(shí)施例提出的聲學(xué)模型的生成方法,通過根據(jù)個性化數(shù)據(jù)和基準(zhǔn)聲學(xué)模型進(jìn)行自適應(yīng)模型訓(xùn)練,可以降低所需的個性化數(shù)據(jù)量,從而降低樣本采集所需的時間,降低模型生成所需周期,實(shí)現(xiàn)模型的快速生成,通過獲取個性化數(shù)據(jù)可以滿足個性化需求。
[0011]為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的聲學(xué)模型的生成裝置,包括:第一獲取模塊,用于獲取個性化數(shù)據(jù),所述個性化數(shù)據(jù)是根據(jù)個性化語音數(shù)據(jù)和對應(yīng)的個性化文本數(shù)據(jù)進(jìn)行處理后得到的;第二獲取模塊,用于獲取預(yù)先生成的基準(zhǔn)聲學(xué)模型,所述基準(zhǔn)聲學(xué)模型是根據(jù)已有的大規(guī)模樣本生成的;生成模塊,用于根據(jù)所述個性化數(shù)據(jù)和所述基準(zhǔn)聲學(xué)模型進(jìn)行自適應(yīng)模型訓(xùn)練,生成個性化聲學(xué)模型。
[0012]本發(fā)明第二方面實(shí)施例提出的聲學(xué)模型的生成裝置,通過根據(jù)個性化數(shù)據(jù)和基準(zhǔn)聲學(xué)模型進(jìn)行自適應(yīng)模型訓(xùn)練,可以降低所需的個性化數(shù)據(jù)量,從而降低樣本采集所需的時間,降低模型生成所需周期,實(shí)現(xiàn)模型的快速生成,通過獲取個性化數(shù)據(jù)可以滿足個性化需求。
[0013]為達(dá)到上述目的,本發(fā)明第三方面實(shí)施例提出的語音合成方法,包括:對輸入文本進(jìn)行處理,得到處理后的文本;獲取預(yù)先生成的個性化聲學(xué)模型;根據(jù)所述個性化聲學(xué)模型和處理后的文本進(jìn)行聲學(xué)參數(shù)生成;根據(jù)生成的聲學(xué)參數(shù)進(jìn)行語音合成,得到個性化合成語音;其中,所述個性化聲學(xué)模型采用如本發(fā)明第一方面實(shí)施例所述的方法生成。
[0014]本發(fā)明第三方面實(shí)施例提出的語音合成方法,通過采用個性化聲學(xué)模型,可以生成個性化合成語音,以滿足用戶個性化語音需求。
[0015]為達(dá)到上述目的,本發(fā)明第四方面實(shí)施例提出的語音合成裝置,包括:處理模塊,用于對輸入文本進(jìn)行處理,得到處理后的文本;獲取模塊,用于獲取預(yù)先生成的個性化聲學(xué)模型;生成模塊,用于根據(jù)所述個性化聲學(xué)模型和處理后的文本進(jìn)行聲學(xué)參數(shù)生成;合成模塊,用于根據(jù)生成的聲學(xué)參數(shù)進(jìn)行語音合成,得到個性化合成語音;其中,所述個性化聲學(xué)模型采用如本發(fā)明第一方面實(shí)施例所述的方法生成。
[0016]本發(fā)明第四方面實(shí)施例提出的語音合成裝置,通過采用個性化聲學(xué)模型,可以生成個性化合成語音,以滿足用戶個性化語音需求。
[0017]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0018]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
[0019]圖1是本發(fā)明一實(shí)施例提出的聲學(xué)模型的生成方法的流程示意圖;
[0020]圖2是本發(fā)明另一實(shí)施例提出的聲學(xué)模型的生成方法的流程示意圖;
[0021]圖3是本發(fā)明另一實(shí)施例提出的聲學(xué)模型的生成方法的流程示意圖;
[0022]圖4是本發(fā)明實(shí)施例中說話人模型的訓(xùn)練過程和識別過程的示意圖;
[0023]圖5是本發(fā)明另一實(shí)施例提出的語音合成方法的流程示意圖;
[0024]圖6是本發(fā)明另一實(shí)施例提出的語音合成方法的流程示意圖;
[0025]圖7是本發(fā)明另一實(shí)施例提出的聲學(xué)模型的生成裝置的結(jié)構(gòu)示意圖;
[0026]圖8是本發(fā)明另一實(shí)施例提出的聲學(xué)模型的生成裝置的結(jié)構(gòu)示意圖;
[0027]圖9是本發(fā)明另一實(shí)施例提出的語音合成裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0028]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0029]圖1是本發(fā)明一實(shí)施例提出的聲學(xué)模型的生成方法的流程示意圖,該方法包括:
[0030]Sll:獲取個性化數(shù)據(jù),所述個性化數(shù)據(jù)是根據(jù)個性化語音數(shù)據(jù)和對應(yīng)的個性化文本數(shù)據(jù)進(jìn)行處理后得到的。
[0031]例如,參見圖2,獲取個性化數(shù)據(jù)時,可以具體包括:
[0032]S21:獲取個性化語音數(shù)據(jù)。
[0033]個性化語音數(shù)據(jù)是能夠滿足用戶個性化需求的語音數(shù)據(jù)。
[0034]個性化語音數(shù)據(jù)可以僅包括目標(biāo)發(fā)音人的語音數(shù)據(jù),或者,可以包括:目標(biāo)發(fā)音人的語音數(shù)據(jù)和與目標(biāo)發(fā)音人語音相似的相似發(fā)音人的語音數(shù)據(jù)。
[0035]目標(biāo)發(fā)音人的語音數(shù)據(jù)例如為:用戶自己的語音數(shù)據(jù)、用戶的家人或朋友的語音數(shù)據(jù),或者,明星的語音數(shù)據(jù)等。
[0036]通過樣本采集可以獲取到個性化語音數(shù)據(jù)。
[0037]與普通聲學(xué)模型訓(xùn)練時通常采集的幾千句樣本相比,當(dāng)個性化語音數(shù)據(jù)僅是目標(biāo)發(fā)音人的語音數(shù)據(jù)時,采集的目標(biāo)發(fā)音人的語音數(shù)據(jù)的樣本量在幾百句或幾十句的規(guī)模,當(dāng)個性化語音數(shù)據(jù)還包括相似發(fā)音人的語音數(shù)據(jù)時,可以進(jìn)一步降低目標(biāo)發(fā)音人的語音數(shù)據(jù)的樣本量,例如采集幾句。
[0038]S22:對個性化語音數(shù)據(jù)進(jìn)行數(shù)據(jù)加工。
[0039]數(shù)據(jù)加工例如包括:降噪處理和切分處理等。具體的降噪規(guī)則和切分規(guī)則可以預(yù)先設(shè)置。
[0040]S23:對數(shù)據(jù)加工后的個性化語音數(shù)據(jù)進(jìn)行特征提取。
[0041]例如,提取的特征包括:譜、基頻、時長等聲學(xué)特征。
[0042]通過S21-S23可以獲取到根據(jù)個性化語音數(shù)據(jù)處理后得到的個性化數(shù)據(jù)。
[0043]另外,個性化數(shù)據(jù)還包括個性化文本標(biāo)注數(shù)據(jù),相應(yīng)的,參見圖2,還包括:
[0044]S24:獲取個性化文本標(biāo)注數(shù)據(jù)。
[0045]其中,個性化文本標(biāo)注數(shù)據(jù)是根據(jù)與上述的個性化語音數(shù)據(jù)對應(yīng)的個性化文本進(jìn)行標(biāo)注后得到的。具體的,在采集個性化語音數(shù)據(jù)時,同時獲取相應(yīng)的個性化文本數(shù)據(jù),可以在已有的數(shù)據(jù)庫中查找是否存在個性化文本數(shù)據(jù)對應(yīng)的標(biāo)注數(shù)據(jù),如果存在,則可以直接從已有的數(shù)據(jù)庫中獲取相應(yīng)的標(biāo)注數(shù)據(jù)作為個性化文本標(biāo)注數(shù)據(jù),如果不存在,則可以采用人工標(biāo)注或自動標(biāo)注的方式,獲取個性化文本標(biāo)注數(shù)據(jù),自動標(biāo)注的方式例如結(jié)合語音識別、自動邊界切分等技術(shù)實(shí)現(xiàn)。
[0046]文本標(biāo)注數(shù)據(jù)例如包括對文本的拼音、韻律層級標(biāo)注等。
[0047]通過S21-S23以及S24可以實(shí)現(xiàn)個性化數(shù)據(jù)的獲取。
[0048]S12:獲取預(yù)先生成的基準(zhǔn)聲學(xué)模型,所述基準(zhǔn)聲學(xué)模型是根據(jù)已有的大規(guī)模樣本生成的。
[0049]其中,可以采用通常的大規(guī)模樣本訓(xùn)練的方式生成基準(zhǔn)聲學(xué)模型。
[0050]在模型訓(xùn)練時,為了解決通常采用的決策樹模型訓(xùn)練方式存在的參數(shù)不夠連貫造成的合成語音不自然的問題,本實(shí)施例中,采用神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,神經(jīng)網(wǎng)絡(luò)例如為LSTM網(wǎng)絡(luò)結(jié)構(gòu)或者雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu),LSTM(Long-Short Term Memory)是一種時間遞推神經(jīng)網(wǎng)絡(luò)。相應(yīng)的,生成的聲學(xué)模型可以稱為神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[0051]以神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練為例,參見圖2,生成基準(zhǔn)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型時,可以具體包括:
[0052]S25:獲取大規(guī)模語音數(shù)據(jù)。