聲學(xué)模型的生成方法和裝置及語音合成方法和裝置的制造方法

文檔序號：9454204閱讀：610來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

聲學(xué)模型的生成方法和裝置及語音合成方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音合成技術(shù)領(lǐng)域，尤其涉及一種聲學(xué)模型的生成方法和裝置及語音合成方法和裝置。
【背景技術(shù)】
[0002]語音合成，又稱文語轉(zhuǎn)換(Text to Speech)技術(shù)，能將任意文字信息實(shí)時轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來，相當(dāng)于給機(jī)器裝上了人工嘴巴。在語音合成時，首先需要對輸入的文本進(jìn)行處理，包括預(yù)處理、分詞、詞性標(biāo)注、注音、韻律層級預(yù)測等，然后通過聲學(xué)模型生成聲學(xué)參數(shù)，最后利用聲學(xué)參數(shù)直接通過聲碼器合成聲音或者從錄音語料庫中挑選單元進(jìn)行拼接。
[0003]現(xiàn)有技術(shù)中，聲學(xué)模型的生成流程耗費(fèi)時間長，也不能滿足個性化需求。

【發(fā)明內(nèi)容】

[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005]為此，本發(fā)明的一個目的在于提出一種聲學(xué)模型的生成方法，該方法可以提高生成聲學(xué)模型的速度，并且可以滿足用戶的個性化需求。
[0006]本發(fā)明的另一個目的在于提出一種聲學(xué)模型的生成裝置。
[0007]本發(fā)明的另一個目的在于提出一種語音合成方法。
[0008]本發(fā)明的另一個目的在于提出一種語音合成裝置。
[0009]為達(dá)到上述目的，本發(fā)明第一方面實(shí)施例提出的聲學(xué)模型的生成方法，包括:獲取個性化數(shù)據(jù)，所述個性化數(shù)據(jù)是根據(jù)個性化語音數(shù)據(jù)和對應(yīng)的個性化文本數(shù)據(jù)進(jìn)行處理后得到的；獲取預(yù)先生成的基準(zhǔn)聲學(xué)模型，所述基準(zhǔn)聲學(xué)模型是根據(jù)已有的大規(guī)模樣本生成的；根據(jù)所述個性化數(shù)據(jù)和所述基準(zhǔn)聲學(xué)模型進(jìn)行自適應(yīng)模型訓(xùn)練，生成個性化聲學(xué)模型。
[0010]本發(fā)明第一方面實(shí)施例提出的聲學(xué)模型的生成方法，通過根據(jù)個性化數(shù)據(jù)和基準(zhǔn)聲學(xué)模型進(jìn)行自適應(yīng)模型訓(xùn)練，可以降低所需的個性化數(shù)據(jù)量，從而降低樣本采集所需的時間，降低模型生成所需周期，實(shí)現(xiàn)模型的快速生成，通過獲取個性化數(shù)據(jù)可以滿足個性化需求。
[0011]為達(dá)到上述目的，本發(fā)明第二方面實(shí)施例提出的聲學(xué)模型的生成裝置，包括:第一獲取模塊，用于獲取個性化數(shù)據(jù)，所述個性化數(shù)據(jù)是根據(jù)個性化語音數(shù)據(jù)和對應(yīng)的個性化文本數(shù)據(jù)進(jìn)行處理后得到的；第二獲取模塊，用于獲取預(yù)先生成的基準(zhǔn)聲學(xué)模型，所述基準(zhǔn)聲學(xué)模型是根據(jù)已有的大規(guī)模樣本生成的；生成模塊，用于根據(jù)所述個性化數(shù)據(jù)和所述基準(zhǔn)聲學(xué)模型進(jìn)行自適應(yīng)模型訓(xùn)練，生成個性化聲學(xué)模型。
[0012]本發(fā)明第二方面實(shí)施例提出的聲學(xué)模型的生成裝置，通過根據(jù)個性化數(shù)據(jù)和基準(zhǔn)聲學(xué)模型進(jìn)行自適應(yīng)模型訓(xùn)練，可以降低所需的個性化數(shù)據(jù)量，從而降低樣本采集所需的時間，降低模型生成所需周期，實(shí)現(xiàn)模型的快速生成，通過獲取個性化數(shù)據(jù)可以滿足個性化需求。
[0013]為達(dá)到上述目的，本發(fā)明第三方面實(shí)施例提出的語音合成方法，包括:對輸入文本進(jìn)行處理，得到處理后的文本；獲取預(yù)先生成的個性化聲學(xué)模型；根據(jù)所述個性化聲學(xué)模型和處理后的文本進(jìn)行聲學(xué)參數(shù)生成；根據(jù)生成的聲學(xué)參數(shù)進(jìn)行語音合成，得到個性化合成語音；其中，所述個性化聲學(xué)模型采用如本發(fā)明第一方面實(shí)施例所述的方法生成。
[0014]本發(fā)明第三方面實(shí)施例提出的語音合成方法，通過采用個性化聲學(xué)模型，可以生成個性化合成語音，以滿足用戶個性化語音需求。
[0015]為達(dá)到上述目的，本發(fā)明第四方面實(shí)施例提出的語音合成裝置，包括:處理模塊，用于對輸入文本進(jìn)行處理，得到處理后的文本；獲取模塊，用于獲取預(yù)先生成的個性化聲學(xué)模型；生成模塊，用于根據(jù)所述個性化聲學(xué)模型和處理后的文本進(jìn)行聲學(xué)參數(shù)生成；合成模塊，用于根據(jù)生成的聲學(xué)參數(shù)進(jìn)行語音合成，得到個性化合成語音；其中，所述個性化聲學(xué)模型采用如本發(fā)明第一方面實(shí)施例所述的方法生成。
[0016]本發(fā)明第四方面實(shí)施例提出的語音合成裝置，通過采用個性化聲學(xué)模型，可以生成個性化合成語音，以滿足用戶個性化語音需求。
[0017]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0018]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解，其中:
[0019]圖1是本發(fā)明一實(shí)施例提出的聲學(xué)模型的生成方法的流程示意圖；
[0020]圖2是本發(fā)明另一實(shí)施例提出的聲學(xué)模型的生成方法的流程示意圖；
[0021]圖3是本發(fā)明另一實(shí)施例提出的聲學(xué)模型的生成方法的流程示意圖；
[0022]圖4是本發(fā)明實(shí)施例中說話人模型的訓(xùn)練過程和識別過程的示意圖；
[0023]圖5是本發(fā)明另一實(shí)施例提出的語音合成方法的流程示意圖；
[0024]圖6是本發(fā)明另一實(shí)施例提出的語音合成方法的流程示意圖；
[0025]圖7是本發(fā)明另一實(shí)施例提出的聲學(xué)模型的生成裝置的結(jié)構(gòu)示意圖；
[0026]圖8是本發(fā)明另一實(shí)施例提出的聲學(xué)模型的生成裝置的結(jié)構(gòu)示意圖；
[0027]圖9是本發(fā)明另一實(shí)施例提出的語音合成裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0028]下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實(shí)施例是示例性的，僅用于解釋本發(fā)明，而不能理解為對本發(fā)明的限制。相反，本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0029]圖1是本發(fā)明一實(shí)施例提出的聲學(xué)模型的生成方法的流程示意圖，該方法包括:
[0030]Sll:獲取個性化數(shù)據(jù)，所述個性化數(shù)據(jù)是根據(jù)個性化語音數(shù)據(jù)和對應(yīng)的個性化文本數(shù)據(jù)進(jìn)行處理后得到的。
[0031]例如，參見圖2，獲取個性化數(shù)據(jù)時，可以具體包括:
[0032]S21:獲取個性化語音數(shù)據(jù)。
[0033]個性化語音數(shù)據(jù)是能夠滿足用戶個性化需求的語音數(shù)據(jù)。
[0034]個性化語音數(shù)據(jù)可以僅包括目標(biāo)發(fā)音人的語音數(shù)據(jù)，或者，可以包括:目標(biāo)發(fā)音人的語音數(shù)據(jù)和與目標(biāo)發(fā)音人語音相似的相似發(fā)音人的語音數(shù)據(jù)。
[0035]目標(biāo)發(fā)音人的語音數(shù)據(jù)例如為:用戶自己的語音數(shù)據(jù)、用戶的家人或朋友的語音數(shù)據(jù)，或者，明星的語音數(shù)據(jù)等。
[0036]通過樣本采集可以獲取到個性化語音數(shù)據(jù)。
[0037]與普通聲學(xué)模型訓(xùn)練時通常采集的幾千句樣本相比，當(dāng)個性化語音數(shù)據(jù)僅是目標(biāo)發(fā)音人的語音數(shù)據(jù)時，采集的目標(biāo)發(fā)音人的語音數(shù)據(jù)的樣本量在幾百句或幾十句的規(guī)模，當(dāng)個性化語音數(shù)據(jù)還包括相似發(fā)音人的語音數(shù)據(jù)時，可以進(jìn)一步降低目標(biāo)發(fā)音人的語音數(shù)據(jù)的樣本量，例如采集幾句。
[0038]S22:對個性化語音數(shù)據(jù)進(jìn)行數(shù)據(jù)加工。
[0039]數(shù)據(jù)加工例如包括:降噪處理和切分處理等。具體的降噪規(guī)則和切分規(guī)則可以預(yù)先設(shè)置。
[0040]S23:對數(shù)據(jù)加工后的個性化語音數(shù)據(jù)進(jìn)行特征提取。
[0041]例如，提取的特征包括:譜、基頻、時長等聲學(xué)特征。
[0042]通過S21-S23可以獲取到根據(jù)個性化語音數(shù)據(jù)處理后得到的個性化數(shù)據(jù)。
[0043]另外，個性化數(shù)據(jù)還包括個性化文本標(biāo)注數(shù)據(jù)，相應(yīng)的，參見圖2，還包括:
[0044]S24:獲取個性化文本標(biāo)注數(shù)據(jù)。
[0045]其中，個性化文本標(biāo)注數(shù)據(jù)是根據(jù)與上述的個性化語音數(shù)據(jù)對應(yīng)的個性化文本進(jìn)行標(biāo)注后得到的。具體的，在采集個性化語音數(shù)據(jù)時，同時獲取相應(yīng)的個性化文本數(shù)據(jù)，可以在已有的數(shù)據(jù)庫中查找是否存在個性化文本數(shù)據(jù)對應(yīng)的標(biāo)注數(shù)據(jù)，如果存在，則可以直接從已有的數(shù)據(jù)庫中獲取相應(yīng)的標(biāo)注數(shù)據(jù)作為個性化文本標(biāo)注數(shù)據(jù)，如果不存在，則可以采用人工標(biāo)注或自動標(biāo)注的方式，獲取個性化文本標(biāo)注數(shù)據(jù)，自動標(biāo)注的方式例如結(jié)合語音識別、自動邊界切分等技術(shù)實(shí)現(xiàn)。
[0046]文本標(biāo)注數(shù)據(jù)例如包括對文本的拼音、韻律層級標(biāo)注等。
[0047]通過S21-S23以及S24可以實(shí)現(xiàn)個性化數(shù)據(jù)的獲取。
[0048]S12:獲取預(yù)先生成的基準(zhǔn)聲學(xué)模型，所述基準(zhǔn)聲學(xué)模型是根據(jù)已有的大規(guī)模樣本生成的。
[0049]其中，可以采用通常的大規(guī)模樣本訓(xùn)練的方式生成基準(zhǔn)聲學(xué)模型。
[0050]在模型訓(xùn)練時，為了解決通常采用的決策樹模型訓(xùn)練方式存在的參數(shù)不夠連貫造成的合成語音不自然的問題，本實(shí)施例中，采用神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練，神經(jīng)網(wǎng)絡(luò)例如為LSTM網(wǎng)絡(luò)結(jié)構(gòu)或者雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)，LSTM(Long-Short Term Memory)是一種時間遞推神經(jīng)網(wǎng)絡(luò)。相應(yīng)的，生成的聲學(xué)模型可以稱為神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。
[0051]以神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練為例，參見圖2，生成基準(zhǔn)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型時，可以具體包括:
[0052]S25:獲取大規(guī)模語音數(shù)據(jù)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李秀林;
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司;
我是此專利的發(fā)明人

上一篇：一種語音轉(zhuǎn)換方法
上一篇：一種聲音轉(zhuǎn)換方法及裝置的制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

專用聲學(xué)測試裝置相關(guān)技術(shù)

聲學(xué)模型相關(guān)技術(shù)

心理聲學(xué)模型相關(guān)技術(shù)

聲學(xué)模型訓(xùn)練相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

聲學(xué)模型的生成方法和裝置及語音合成方法和裝置的制造方法