語音合成方法和語音合成裝置的制造方法

文檔序號(hào)：10490220閱讀：243來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音合成方法和語音合成裝置的制造方法
【專利摘要】本發(fā)明公開了一種語音合成方法以及裝置。其中方法包括：確定待合成語句文本信息所屬的語種類型，其中，語種類型包括第一語種類型和第二語種類型；確定第一語種類型對(duì)應(yīng)的第一基礎(chǔ)模型，并確定第二語種類型對(duì)應(yīng)的第二基礎(chǔ)模型；確定目標(biāo)音色，并根據(jù)目標(biāo)音色分別對(duì)第一基礎(chǔ)模型、第二基礎(chǔ)模型進(jìn)行自適應(yīng)變換，并根據(jù)自適應(yīng)變換后的第一基礎(chǔ)模型、第二基礎(chǔ)模型對(duì)待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的譜參數(shù)和基頻參數(shù)；根據(jù)目標(biāo)音色對(duì)第一語種類型和第二語種類型的基頻參數(shù)進(jìn)行調(diào)整；依據(jù)第一語種類型的譜參數(shù)、第二語種類型的譜參數(shù)、調(diào)整后的第一語種類型的基頻參數(shù)、第二語種類型的基頻參數(shù)合成目標(biāo)語音。
【專利說明】
語音合成方法和語音合成裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及語音合成技術(shù)領(lǐng)域，尤其涉及一種語音合成方法和語音合成裝置。
【背景技術(shù)】
[0002]隨著語音合成技術(shù)的發(fā)展和應(yīng)用的普及，語音合成業(yè)務(wù)正越來越多的被用戶接受和使用。在語音合成業(yè)務(wù)的用戶中，有很大一部分是雙語言或多語言用戶，而語音合成也越來越多的應(yīng)用到多語種內(nèi)容的場(chǎng)合。因此產(chǎn)生了多語種語音合成的需求，其中，尤其以中英混讀最為普遍。用戶對(duì)多語種語音合成通常的要求首先是可懂，其次是發(fā)音準(zhǔn)確、自然且音色統(tǒng)一。在當(dāng)前語音合成技術(shù)已經(jīng)基本解決可懂度的情況下，如何合成自然、準(zhǔn)確的、音色統(tǒng)一多語種語音，成了語音合成的一個(gè)技術(shù)難題。
[0003]相關(guān)技術(shù)中，通常在涉及到多語種合成的場(chǎng)合會(huì)采用分別對(duì)不同語言使用不同說話人數(shù)據(jù)建模的方式，或?qū)で蟾鞣N語言均發(fā)音比較標(biāo)準(zhǔn)的發(fā)音人數(shù)據(jù)進(jìn)行建模。
[0004]但是目前存在的問題是:(I)針對(duì)不同語言使用不同母語說話人的數(shù)據(jù)的方法，會(huì)造成合成音色不統(tǒng)一的問題，以至于影響語音合成的自然度和用戶體驗(yàn)；(2)采用多語種說話人數(shù)據(jù)的方法，大多數(shù)發(fā)音人除母語外的語言并不地道，帶有口音，與母語說話人有較大差距，降低用戶體驗(yàn)，而采用這樣的數(shù)據(jù)合成的語音除說話人母語外，讀音均不夠標(biāo)準(zhǔn)，而多種語言均標(biāo)準(zhǔn)的發(fā)音人通常是專業(yè)人員，數(shù)據(jù)采集成本又較高。
[0005]因此，如何低成本、高效率地將多種語言文本合成自然、準(zhǔn)確的、音色統(tǒng)一的多語種語音已經(jīng)成為亟待解決的問題。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問題之一。
[0007]為此，本發(fā)明的第一個(gè)目的在于提出一種語音合成方法。該方法可以降低語言基礎(chǔ)模型建立的數(shù)據(jù)成本和實(shí)現(xiàn)難度，減少了多語種合成對(duì)專業(yè)的多語發(fā)音人數(shù)據(jù)的依賴，可以有效地將多語言待合成語句文本合成自然的、準(zhǔn)確的、音色統(tǒng)一的多語種語音，提升了用戶體驗(yàn)。
[0008]本發(fā)明的第二個(gè)目的在于提出一種語音合成裝置。
[0009]為達(dá)到上述目的，本發(fā)明第一方面實(shí)施例的語音合成方法，包括:確定待合成語句文本信息所屬的語種類型，其中，所述語種類型包括第一語種類型和第二語種類型;確定所述第一語種類型對(duì)應(yīng)的第一基礎(chǔ)模型，并確定所述第二語種類型對(duì)應(yīng)的第二基礎(chǔ)模型，其中，所述第一基礎(chǔ)模型包括第一譜參數(shù)模型和第一基頻參數(shù)模塊，所述第二基礎(chǔ)模型包括第二譜參數(shù)模型和第二基頻參數(shù)模塊;確定目標(biāo)音色，并根據(jù)所述目標(biāo)音色分別對(duì)所述第一譜參數(shù)模型、所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換，并根據(jù)自適應(yīng)變換后的所述第一譜參數(shù)模型和所述第二譜參數(shù)模型對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的譜參數(shù);根據(jù)所述第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的基頻參數(shù)，并根據(jù)所述目標(biāo)音色對(duì)所述第一語種類型和第二語種類型的基頻參數(shù)進(jìn)行調(diào)整;依據(jù)所述第一語種類型的譜參數(shù)、所述第二語種類型的譜參數(shù)、調(diào)整后的所述第一語種類型的基頻參數(shù)、第二語種類型的基頻參數(shù)合成目標(biāo)語音。
[0010]本發(fā)明實(shí)施例的語音合成方法，確定待合成語句文本中包含哪些語種類型，之后根據(jù)目標(biāo)音色對(duì)各語種類型的譜參數(shù)模型進(jìn)行自適應(yīng)訓(xùn)練，并采用自適應(yīng)訓(xùn)練后的譜參數(shù)模型生成對(duì)應(yīng)的譜參數(shù)，并根據(jù)目標(biāo)音色將生成的各語種類型的基頻參數(shù)進(jìn)行調(diào)整，以得到音色統(tǒng)一的多語種語音，可以理解，上述語言基礎(chǔ)模型利用的大多是單語數(shù)據(jù)建立的模型，降低了模型建立的數(shù)據(jù)成本和實(shí)現(xiàn)難度，減少了多語種合成對(duì)專業(yè)的多語發(fā)音人數(shù)據(jù)的依賴，可以有效地將多語言待合成語句文本合成自然的、準(zhǔn)確的、音色統(tǒng)一的多語種語音，提升了用戶體驗(yàn)。
[0011 ]為達(dá)到上述目的，本發(fā)明第二方面實(shí)施例的語音合成裝置，包括:第一確定模塊，用于確定待合成語句文本信息所屬的語種類型，其中，所述語種類型包括第一語種類型和第二語種類型;第二確定模塊，用于確定所述第一語種類型對(duì)應(yīng)的第一基礎(chǔ)模型，并確定所述第二語種類型對(duì)應(yīng)的第二基礎(chǔ)模型，其中，所述第一基礎(chǔ)模型包括第一譜參數(shù)模型和第一基頻參數(shù)模塊，所述第二基礎(chǔ)模型包括第二譜參數(shù)模型和第二基頻參數(shù)模塊;第三確定模塊，用于確定目標(biāo)音色；自適應(yīng)變換模塊，用于根據(jù)所述目標(biāo)音色分別對(duì)所述第一譜參數(shù)模型、所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換;譜參數(shù)生成模塊，用于根據(jù)自適應(yīng)變換后的所述第一譜參數(shù)模型和所述第二譜參數(shù)模型對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的譜參數(shù);基頻參數(shù)生成模塊，用于根據(jù)所述第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的基頻參數(shù);基頻參數(shù)調(diào)整模塊，用于根據(jù)所述第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的基頻參數(shù);語音合成模塊，用于依據(jù)所述第一語種類型的譜參數(shù)、所述第二語種類型的譜參數(shù)、調(diào)整后的所述第一語種類型的基頻參數(shù)、第二語種類型的基頻參數(shù)合成目標(biāo)語音。
[0012]本發(fā)明實(shí)施例的語音合成裝置，確定待合成語句文本中包含哪些語種類型，之后根據(jù)目標(biāo)音色對(duì)各語種類型的譜參數(shù)模型進(jìn)行自適應(yīng)訓(xùn)練，并采用自適應(yīng)訓(xùn)練后的譜參數(shù)模型生成對(duì)應(yīng)的譜參數(shù)，并根據(jù)目標(biāo)音色將生成的各語種類型的基頻參數(shù)進(jìn)行調(diào)整，以得到音色統(tǒng)一的多語種語音，可以理解，上述語言基礎(chǔ)模型利用的大多是單語數(shù)據(jù)建立的模型，降低了模型建立的數(shù)據(jù)成本和實(shí)現(xiàn)難度，減少了多語種合成對(duì)專業(yè)的多語發(fā)音人數(shù)據(jù)的依賴，可以有效地將多語言待合成語句文本合成自然的、準(zhǔn)確的、音色統(tǒng)一的多語種語音，提升了用戶體驗(yàn)。
[0013]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0014]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解，其中:
[0015]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音合成方法的流程圖；
[0016]圖2是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的語音合成方法的流程圖；
[0017]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音合成方法的示例圖；
[0018]圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音合成裝置的結(jié)構(gòu)框圖；
[0019]圖5是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的語音合成裝置的結(jié)構(gòu)框圖；
[0020]圖6是根據(jù)本發(fā)明另一個(gè)具體實(shí)施例的語音合成裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0021]下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，旨在用于解釋本發(fā)明，而不能理解為對(duì)本發(fā)明的限制。
[0022]可以理解，在日常生活中，多語種語音合成應(yīng)用已經(jīng)逐漸被人們所需要，例如，以移動(dòng)終端中的新聞應(yīng)用程序?yàn)槔?dāng)用戶使用新聞應(yīng)用程序通過語音合成的功能聽取新聞時(shí)，新聞內(nèi)容，尤其是科技新聞，除中文外還夾雜有大量的英文，因此這一應(yīng)用是典型的多語種語音合成，然而合成語音的自然度、準(zhǔn)確度以及音色是否統(tǒng)一都會(huì)對(duì)用戶體驗(yàn)造成影響。為此，本發(fā)明提出了一種語音合成方法和裝置，以有效地解決發(fā)音準(zhǔn)確性和統(tǒng)一音色的問題。具體地，下面參考附圖描述本發(fā)明實(shí)施例的語音合成方法和語音合成裝置。
[0023]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音合成方法的流程圖。需要說明的是，本發(fā)明實(shí)施例的語音合成方法可應(yīng)用于移動(dòng)終端(如手機(jī)、平板電腦、個(gè)人數(shù)字助理等)、終端(如PC機(jī))等具有語音合成功能的電子設(shè)備中。此外，本發(fā)明實(shí)施例的語音合成方法適用于多種語言文本合成多種語種語音的場(chǎng)景。
[0024]如圖1所示，該語音合成方法可以包括:
[0025]SlOl，確定待合成語句文本信息所屬的語種類型，其中，語種類型包括第一語種類型和第二語種類型。
[0026]具體地，可先獲取待合成語句文本信息，該待合成語句文本信息可理解為待合成語句文本的文本內(nèi)容，之后，可對(duì)該待合成語句文本信息進(jìn)行語言判別，以確定待合成語句文本信息中語句文本所屬的語種類型。
[0027]作為一種示例，可根據(jù)語種的字符和上下文內(nèi)容信息來對(duì)待合成語句文本信息中的文字內(nèi)容進(jìn)行斷句，并判斷出每個(gè)斷句片段的語種類型，該語種類型可包括第一語種類型和第二語種類型，其中，該第二語種類型可為一個(gè)或多個(gè)，也就是說，該待合成語句文本中語句文本所屬的語種類型可以是兩種語種，也可以是三種或三種以上語種類型。
[0028]S102，確定第一語種類型對(duì)應(yīng)的第一基礎(chǔ)模型，并確定第二語種類型對(duì)應(yīng)的第二基礎(chǔ)模型，其中，第一基礎(chǔ)模型包括第一譜參數(shù)模型和第一基頻參數(shù)模塊，第二基礎(chǔ)模型包括第二譜參數(shù)模型和第二基頻參數(shù)模塊。
[0029]具體地，在確定待合成語句文本信息中所屬哪些語種類型之后，可確定這些語種類型所對(duì)應(yīng)的語言基礎(chǔ)模型。例如，以待合成語句文本包括中英文混合語句文本為例，則可確定該中英文混合語句文本所屬的語音類型包括中文語種類型和英文語種類型，之后，可確定中文語種類型對(duì)應(yīng)的中文基礎(chǔ)模型和英文語種類型對(duì)應(yīng)的英文基礎(chǔ)模型。
[0030]可以理解，每種語言基礎(chǔ)模型可包括上下文相關(guān)的HMM模型(Hidden MarkovModel，隱馬爾可夫模型)及該HMM模型對(duì)應(yīng)的狀態(tài)聚類決策樹。其中，HMM模型的每一個(gè)狀態(tài)表示為一個(gè)高斯模型，決策樹的作用為對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行聚類，以使得每一個(gè)狀態(tài)都獲得足夠的訓(xùn)練數(shù)據(jù)。
[0031]需要說明的是，上述第一基礎(chǔ)模型可理解是使用以第一語種類型為母語的訓(xùn)練說話人的語音數(shù)據(jù)而建立的模型，而該訓(xùn)練說話人可以會(huì)說第二語種，但對(duì)于該訓(xùn)練說話人的第二語種發(fā)音的標(biāo)準(zhǔn)性不做要求。上述第二基礎(chǔ)模型可理解是使用以第二語種類型為母語的訓(xùn)練說話人的語音數(shù)據(jù)而建立的模型，該訓(xùn)練說話人可以會(huì)說第一語種，但對(duì)于該訓(xùn)練說話人的第一語種發(fā)音的標(biāo)準(zhǔn)性不做要求。
[0032]也就是說，在進(jìn)行多語種語音合模型訓(xùn)練時(shí)，不必要求某一個(gè)發(fā)音人具有非常標(biāo)準(zhǔn)的雙語發(fā)音，只要其中一個(gè)語言標(biāo)準(zhǔn)即可，其他語言的基礎(chǔ)模型可以用其他發(fā)音標(biāo)準(zhǔn)的發(fā)音人數(shù)據(jù)進(jìn)行訓(xùn)練。由此，可以減少多語種合成中對(duì)專業(yè)的多語發(fā)音人數(shù)據(jù)的依賴，而利用更多的單語數(shù)據(jù)，降低數(shù)據(jù)成本和實(shí)現(xiàn)難度。
[0033]S103，確定目標(biāo)音色，并根據(jù)目標(biāo)音色分別對(duì)第一譜參數(shù)模型、第二譜參數(shù)模型進(jìn)行自適應(yīng)變換，并根據(jù)自適應(yīng)變換后的第一譜參數(shù)模型和第二譜參數(shù)模型對(duì)待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的譜參數(shù)。
[0034]可以理解，在本發(fā)明的實(shí)施例中，目標(biāo)音色的確定方式可以有很多種，例如，可以通過確定用戶的母語所屬種類來確定目標(biāo)音色，還可以通過確定用戶所使用的電子設(shè)備(如移動(dòng)終端、終端等)的語言設(shè)置中選擇的是哪種語種類型來確定目標(biāo)音色，還可以通過其他方式來確定目標(biāo)音色，在此不再一一舉例示出。
[0035]作為一種示例，確定目標(biāo)音色的具體實(shí)現(xiàn)過程可如下:獲取用戶的用戶信息(如用戶名或賬戶名等)，并根據(jù)用戶信息確定用戶的母語所屬種類，其中，母語所屬種類包含于語種類型中；將用戶的母語所屬種類的基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色作為目標(biāo)音色。例如，獲取用戶A的用戶信息，并根據(jù)該用戶信息確定該用戶A的母語所屬種類為中文，此時(shí)可將該用戶A的母語中文的基礎(chǔ)模型(即中文基礎(chǔ)模型)所對(duì)應(yīng)的訓(xùn)練說話人的音色作為目標(biāo)音色。
[0036]在確定目標(biāo)音色之后，可根據(jù)該目標(biāo)音色分別對(duì)第一譜參數(shù)模型、第二譜參數(shù)模型進(jìn)行自適應(yīng)變換，使得應(yīng)用該變換后的第一譜參數(shù)模型、第二譜參數(shù)模型可以生成具有相同或相近音色的譜參數(shù)。也就是說，在確定目標(biāo)音色之后，可根據(jù)該目標(biāo)音色對(duì)第一基礎(chǔ)模型和第二基礎(chǔ)模型進(jìn)行自適應(yīng)訓(xùn)練，以使得利用自適應(yīng)訓(xùn)練后的第一基礎(chǔ)模型和第二基礎(chǔ)模型所生成的譜參數(shù)相同或相近。具體的自適應(yīng)變換的實(shí)現(xiàn)方式可參照后續(xù)實(shí)施例的描述。
[0037]S104，根據(jù)第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的基頻參數(shù)，并根據(jù)目標(biāo)音色對(duì)第一語種類型和第二語種類型的基頻參數(shù)進(jìn)行調(diào)整。
[0038]具體地，可根據(jù)第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)待合成語句文本信息中各語種類型所對(duì)應(yīng)的待合成語句文本進(jìn)行相應(yīng)的訓(xùn)練，以生成與第一語種類型的待合成語句文本對(duì)應(yīng)的基頻參數(shù)以及與第二語種類型的待合成語句文本對(duì)應(yīng)的基頻參數(shù)。在生成基頻參數(shù)之后，可根據(jù)上述目標(biāo)音色對(duì)第一語種類型和第二語種類型的基頻參數(shù)進(jìn)行調(diào)整，例如，可將第一語種類型以及第二語種類型的基頻參數(shù)中的基頻曲線的全局均值和方差，統(tǒng)一調(diào)整與目標(biāo)音色所對(duì)應(yīng)的基頻參數(shù)中的基頻曲線的全局均值和方差相同，以使得將第一基礎(chǔ)模型得到的語音音色與第二基礎(chǔ)模型得到的語音音色統(tǒng)一成該目標(biāo)音色，保證將多語言文本合成音色統(tǒng)一的多語種語音。
[0039]S105，依據(jù)第一語種類型的譜參數(shù)、第二語種類型的譜參數(shù)、調(diào)整后的第一語種類型的基頻參數(shù)、第二語種類型的基頻參數(shù)合成目標(biāo)語音。
[0040]作為一種示例，可將第一語種類型的譜參數(shù)、第二語種類型的譜參數(shù)、調(diào)整后的第一語種類型的基頻參數(shù)、第二語種類型的基頻參數(shù)經(jīng)由聲碼器合成目標(biāo)語音。可以理解，該目標(biāo)語音為多語種語音。
[0041 ]本發(fā)明實(shí)施例的語音合成方法，首先，確定待合成語句文本信息所屬的語種類型，其中，語種類型包括第一語種類型和第二語種類型，之后，確定第一語種類型對(duì)應(yīng)的第一基礎(chǔ)模型，并確定第二語種類型對(duì)應(yīng)的第二基礎(chǔ)模型，然后，確定目標(biāo)音色，并根據(jù)目標(biāo)音色分別對(duì)第一基礎(chǔ)模型、第二基礎(chǔ)模型進(jìn)行自適應(yīng)變換，并根據(jù)自適應(yīng)變換后的第一基礎(chǔ)模型、第二基礎(chǔ)模型對(duì)待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的譜參數(shù)和基頻參數(shù)，之后，根據(jù)目標(biāo)音色對(duì)第一語種類型和第二語種類型的基頻參數(shù)進(jìn)行調(diào)整，最后，依據(jù)第一語種類型的譜參數(shù)、第二語種類型的譜參數(shù)、調(diào)整后的第一語種類型的基頻參數(shù)、第二語種類型的基頻參數(shù)合成目標(biāo)語音。即先確定待合成語句文本中包含哪些語種類型，之后根據(jù)目標(biāo)音色對(duì)各語種類型的譜參數(shù)模型進(jìn)行自適應(yīng)訓(xùn)練，并采用自適應(yīng)訓(xùn)練后的譜參數(shù)模型生成對(duì)應(yīng)的譜參數(shù)，并根據(jù)目標(biāo)音色將生成的各語種類型的基頻參數(shù)進(jìn)行調(diào)整，以得到音色統(tǒng)一的多語種語音，可以理解，上述語言基礎(chǔ)模型利用的大多是單語數(shù)據(jù)建立的模型，降低了模型建立的數(shù)據(jù)成本和實(shí)現(xiàn)難度，減少了多語種合成對(duì)專業(yè)的多語發(fā)音人數(shù)據(jù)的依賴，可以有效地將多語言待合成語句文本合成自然的、準(zhǔn)確的、音色統(tǒng)一的多語種語音，提升了用戶體驗(yàn)。
[0042]圖2是根據(jù)本發(fā)明一個(gè)具體實(shí)施例的語音合成方法的流程圖。
[0043]可以理解，目標(biāo)音色可以是用戶更想該合成語音的音色更傾向于哪種說話人的音色，例如，該目標(biāo)音色可以是第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色，也可以是第二基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色。
[0044]在本發(fā)明的實(shí)施例中，以目標(biāo)音色為第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色為例，如圖2所示，當(dāng)目標(biāo)音色為第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色時(shí)，該語音合成方法可以包括:
[0045]S201，確定待合成語句文本信息所屬的語種類型，其中，語種類型包括第一語種類型和第二語種類型。
[0046]S202，確定第一語種類型對(duì)應(yīng)的第一基礎(chǔ)模型，并確定第二語種類型對(duì)應(yīng)的第二基礎(chǔ)模型，其中，第一基礎(chǔ)模型包括第一譜參數(shù)模型和第一基頻參數(shù)模塊，第二基礎(chǔ)模型包括第二譜參數(shù)模型和第二基頻參數(shù)模塊。
[0047]S203，確定目標(biāo)音色，并根據(jù)目標(biāo)音色對(duì)第二譜參數(shù)模型進(jìn)行自適應(yīng)變換。
[0048]可以理解，當(dāng)確定目標(biāo)音色為第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色時(shí)，也就是，將第二基礎(chǔ)模型所生成的參數(shù)調(diào)整至與第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色相同，而第一基礎(chǔ)模型可不進(jìn)行自適應(yīng)訓(xùn)練而可以直接用來參數(shù)生成。
[0049]作為一種示例，在確定目標(biāo)音色為第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色時(shí)，可獲取第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)第二語種類型的訓(xùn)練語音數(shù)據(jù)，并根據(jù)第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)第二語種類型的訓(xùn)練語音數(shù)據(jù)對(duì)第二譜參數(shù)模型進(jìn)行自適應(yīng)變換?？梢岳斫?，譜參數(shù)模型的自適應(yīng)變換是在參數(shù)生成之前完成的。
[0050]具體地，在獲取到第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)第二語種類型的訓(xùn)練語音數(shù)據(jù)(如包括第二語種類型的訓(xùn)練語句及其標(biāo)注等)時(shí)，可以該第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)第二語種類型的訓(xùn)練語音數(shù)據(jù)作為輸入，經(jīng)由第二譜參數(shù)模型的決策樹進(jìn)行聚類，得到每一個(gè)狀態(tài)的訓(xùn)練數(shù)據(jù)，并以每一個(gè)狀態(tài)的訓(xùn)練數(shù)據(jù)對(duì)每個(gè)譜參數(shù)的HMM狀態(tài)估計(jì)變換矩陣，使得后續(xù)可以應(yīng)用變換矩陣后的狀態(tài)高斯模型可以生成與第一語種類型訓(xùn)練說話人相近的譜參數(shù)。
[0051 ] S204，根據(jù)第一譜參數(shù)模型對(duì)待合成語句文本信息中第一語種類型對(duì)應(yīng)的待合成語句進(jìn)行訓(xùn)練，以生成第一語種類型的譜參數(shù)，并根據(jù)自適應(yīng)變換后的第二譜參數(shù)模型對(duì)待合成語句文本信息中第二語種類型對(duì)應(yīng)的待合成語句進(jìn)行訓(xùn)練，以生成第二語種類型的譜參數(shù)。
[0052]具體地，當(dāng)確定目標(biāo)音色為第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色時(shí)，可直接根據(jù)第一譜參數(shù)模型對(duì)待合成語句文本信息中第一語種類型對(duì)應(yīng)的待合成語句進(jìn)行訓(xùn)練，以生成第一語種類型的譜參數(shù)。而對(duì)于第二語種類型對(duì)應(yīng)的待合成語句，可根據(jù)自適應(yīng)變換后的第二譜參數(shù)模型對(duì)該第二語種類型對(duì)應(yīng)的待合成語句進(jìn)行訓(xùn)練，以生成第二語種類型的譜參數(shù)。
[0053]S205，根據(jù)第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的基頻參數(shù)，并根據(jù)目標(biāo)音色對(duì)第二語種類型的基頻參數(shù)進(jìn)行調(diào)整。
[0054]具體地，可根據(jù)第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)待合成語句文本信息中各語種類型所對(duì)應(yīng)的待合成語句進(jìn)行相應(yīng)的訓(xùn)練，以生成各語種類型對(duì)應(yīng)的基頻參數(shù)，即第一語種類型的基頻參數(shù)和第二語種類型的基頻參數(shù)。
[0055]可以理解，在確定目標(biāo)音色為第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色時(shí)，可對(duì)第一語種類型的基頻參數(shù)不進(jìn)行調(diào)整，而需對(duì)第二語種類型的基頻參數(shù)進(jìn)行調(diào)整。
[0056]作為一種示例，根據(jù)目標(biāo)音色對(duì)第二語種類型的基頻參數(shù)進(jìn)行調(diào)整的具體實(shí)現(xiàn)過程可包括:可先獲取第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)第二語種類型的訓(xùn)練語音數(shù)據(jù)，然后，根據(jù)第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)第二語種類型的訓(xùn)練語音數(shù)據(jù)對(duì)第二基頻參數(shù)模型進(jìn)行訓(xùn)練，以生成目標(biāo)音色對(duì)應(yīng)的目標(biāo)說話人基頻參數(shù)，最后，根據(jù)目標(biāo)說話人基頻參數(shù)對(duì)第二語種類型的基頻參數(shù)進(jìn)行調(diào)整。
[0057]可以理解，基頻參數(shù)的調(diào)整是在參數(shù)生成之后完成的。在確定目標(biāo)音色為第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色時(shí)，可先獲取第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)第二語種類型的訓(xùn)練語音數(shù)據(jù)(如包括第二語種類型的訓(xùn)練語句及其標(biāo)注等)，并以該訓(xùn)練語音數(shù)據(jù)為輸入，經(jīng)由第二基頻參數(shù)模型的決策樹進(jìn)行聚類，得到每一個(gè)狀態(tài)的訓(xùn)練數(shù)據(jù)，并以此每一個(gè)狀態(tài)的訓(xùn)練數(shù)據(jù)對(duì)每個(gè)基頻的HMM狀態(tài)進(jìn)行訓(xùn)練，得到HMM狀態(tài)的高斯參數(shù)，稱為目標(biāo)說話人基頻模型。合成時(shí)，先以目標(biāo)說話人基頻模型進(jìn)行參數(shù)生成，計(jì)算生成的基頻曲線的全局均值和方差，將其保存。然后，以第二基礎(chǔ)模型進(jìn)行基頻參數(shù)生成，并將生成的基頻曲線經(jīng)過線性變換，使得其均值和方差轉(zhuǎn)換為與目標(biāo)說話人基頻模型生成的基頻全局均值和方差相同，完成基頻曲線的調(diào)整。
[0058]S206，依據(jù)第一語種類型的譜參數(shù)、第二語種類型的譜參數(shù)、第一語種類型的基頻參數(shù)以及調(diào)整后的第二語種類型的基頻參數(shù)合成目標(biāo)語音。
[0059]可以理解，第二語種語音的音色通過自適應(yīng)和基頻參數(shù)調(diào)整的方式轉(zhuǎn)換為第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色，保留了第二語種語音原有的時(shí)長、語調(diào)信息，使原本第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人講的并不地道的第二語種語音變得與第二基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人發(fā)音接近。
[0060]為了使得本領(lǐng)域技術(shù)人員能夠更加清楚地了解本發(fā)明，下面以中文和英文兩種語言混合合成，并統(tǒng)一為中文說話人音色為例介紹本發(fā)明的方法。
[0061]舉例而言，假設(shè)第一基礎(chǔ)模型為中文基礎(chǔ)模型，第二基礎(chǔ)模型為英文基礎(chǔ)模型，假設(shè)中文基礎(chǔ)模型是利用一名以中文為母語的中英雙語說話人的雙語語音數(shù)據(jù)建立的模型，英文基礎(chǔ)模型是利用一名以英語母語說話人的英語語音數(shù)據(jù)建立的模型，其中，對(duì)于中文母語說話人的英文發(fā)音的標(biāo)準(zhǔn)性不做要求。
[0062]如圖3所示，在獲取到待合成語句文本信息之后，可根據(jù)語種的字符和上下文來對(duì)該待合成語句文本中的文字內(nèi)容進(jìn)行斷句，并判斷出每一個(gè)句子片段的語種(S301)。由于追中音色需要調(diào)整至中文發(fā)音人發(fā)音，因此中文基礎(chǔ)模型被直接用來進(jìn)行參數(shù)生成，英文基礎(chǔ)模型需要進(jìn)行轉(zhuǎn)換處理。即，在參數(shù)生成之前，可以英文模型轉(zhuǎn)換為中文說話人音色為例，可獲取中文說話人的英文訓(xùn)練語句數(shù)據(jù)(如英文語句及其標(biāo)注)為輸入，經(jīng)由英文基礎(chǔ)模型中的英文譜參數(shù)模型的決策樹進(jìn)行聚類，得到每一個(gè)狀態(tài)的訓(xùn)練數(shù)據(jù)，并以此數(shù)據(jù)對(duì)每個(gè)譜參數(shù)的HMM狀態(tài)估計(jì)變換矩陣，使得應(yīng)用變換矩陣后的狀態(tài)高斯模型可以生成與中文說話人相近的譜參數(shù)，用以進(jìn)行參數(shù)生成(S302)。在參數(shù)生成之后，可以中文說話人的英文訓(xùn)練語句數(shù)據(jù)(如英文語句及其標(biāo)注)為輸入，經(jīng)由英文基礎(chǔ)模型中的英文基頻參數(shù)模型的決策樹進(jìn)行聚類，得到每一個(gè)狀態(tài)的訓(xùn)練數(shù)據(jù)，并以此數(shù)據(jù)對(duì)每個(gè)基頻的HMM狀態(tài)進(jìn)行訓(xùn)練，得到HMM狀態(tài)的高斯參數(shù)，稱為目標(biāo)說話人基頻模型。合成時(shí)，先以目標(biāo)說話人基頻模型進(jìn)行參數(shù)生成，計(jì)算生成的基頻曲線的全局均值和方差，將其保存。然后，以英文基礎(chǔ)模型進(jìn)行基頻參數(shù)生成，并將生成的基頻曲線經(jīng)過線性變換，使得其均值和方差轉(zhuǎn)換為與目標(biāo)說話人基頻模型生成的基頻全局均值和方差相同，完成基頻曲線的轉(zhuǎn)換(S303)。最后，將生成的中文語句文本對(duì)應(yīng)的譜參數(shù)、基頻參數(shù)、適應(yīng)后得到的英文語句文本對(duì)應(yīng)的譜參數(shù)、調(diào)整后的英文語句文本對(duì)應(yīng)的基頻參數(shù)經(jīng)由聲碼器進(jìn)行語音合成，以得到中英文混合語音(S304)。
[0063]綜上，本發(fā)明實(shí)施例的語音合成方法通過不依賴某一個(gè)標(biāo)準(zhǔn)的多語發(fā)音人數(shù)據(jù)的情況下，合成音色統(tǒng)一且發(fā)音標(biāo)準(zhǔn)的語音，可以減少多語種合成中對(duì)專業(yè)的多語發(fā)音人數(shù)據(jù)的依賴，而利用更多的單語數(shù)據(jù)，降低數(shù)據(jù)成本和實(shí)現(xiàn)難度。
[0064]本發(fā)明實(shí)施例的語音合成方法，確定待合成語句文本中包含哪些語種類型，并在確定目標(biāo)音色為第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色時(shí)，根據(jù)該目標(biāo)音色對(duì)第二譜參數(shù)模型進(jìn)行自適應(yīng)變換，而第一基礎(chǔ)模型可不進(jìn)行自適應(yīng)訓(xùn)練而可以直接用來參數(shù)生成，并根據(jù)自適應(yīng)訓(xùn)練后的第二譜參數(shù)模型生成對(duì)應(yīng)的第二語種類型譜參數(shù)，并根據(jù)目標(biāo)音色將生成的第二語種類型的基頻參數(shù)進(jìn)行調(diào)整，以將第二語種說話人的音色調(diào)整為與第一語種說話人的音色相同或相近，可以降低模型建立的數(shù)據(jù)成本和實(shí)現(xiàn)難度，減少了多語種合成對(duì)專業(yè)的多語發(fā)音人數(shù)據(jù)的依賴，可以有效地將多語言待合成語句文本合成自然的、準(zhǔn)確的、音色統(tǒng)一的多語種語音，提升了用戶體驗(yàn)。
[0065]與上述幾種實(shí)施例提供的語音合成方法相對(duì)應(yīng)，本發(fā)明的一種實(shí)施例還提供一種語音合成裝置，由于本發(fā)明實(shí)施例提供的語音合成裝置與上述幾種實(shí)施例提供的語音合成方法相對(duì)應(yīng)，因此在前述語音合成方法的實(shí)施方式也適用于本實(shí)施例提供的語音合成裝置，在本實(shí)施例中不再詳細(xì)描述。圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的語音合成裝置的結(jié)構(gòu)框圖。如圖4所示，該語音合成裝置可以包括:第一確定模塊10、第二確定模塊20、第三確定模塊30、自適應(yīng)變換模塊40、譜參數(shù)生成模塊50、基頻參數(shù)生成模塊60、基頻參數(shù)調(diào)整模塊70和語音合成模塊80。
[0066]具體地，第一確定模塊10可用于確定待合成語句文本信息所屬的語種類型，其中，語種類型包括第一語種類型和第二語種類型。
[0067]第二確定模塊20可用于確定第一語種類型對(duì)應(yīng)的第一基礎(chǔ)模型，并確定第二語種類型對(duì)應(yīng)的第二基礎(chǔ)模型，其中，第一基礎(chǔ)模型包括第一譜參數(shù)模型和第一基頻參數(shù)模塊，第二基礎(chǔ)模型包括第二譜參數(shù)模型和第二基頻參數(shù)模塊。
[0068]第三確定模塊30可用于確定目標(biāo)音色。具體而言，在本發(fā)明的一個(gè)實(shí)施例中，如圖5所示，該第三確定模塊30可包括:第一確定單元31和第二確定單元32。其中，第一確定單元31用于獲取用戶的用戶信息，并根據(jù)用戶信息確定用戶的母語所屬種類，其中，母語所屬種類包含于語種類型中。第二確定單元32用于將用戶的母語所屬種類的基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色作為目標(biāo)音色。
[0069]自適應(yīng)變換模塊40可用于根據(jù)目標(biāo)音色分別對(duì)第一譜參數(shù)模型、第二譜參數(shù)模型進(jìn)行自適應(yīng)變換。
[0070]譜參數(shù)生成模塊50可用于根據(jù)自適應(yīng)變換后的第一譜參數(shù)模型和第二譜參數(shù)模型對(duì)待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的譜參數(shù)。
[0071]基頻參數(shù)生成模塊60可用于根據(jù)第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的基頻參數(shù)。
[0072]基頻參數(shù)調(diào)整模塊70可用于根據(jù)第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的基頻參數(shù)。
[0073]語音合成模塊80可用于依據(jù)第一語種類型的譜參數(shù)、第二語種類型的譜參數(shù)、調(diào)整后的第一語種類型的基頻參數(shù)、第二語種類型的基頻參數(shù)合成目標(biāo)語音。
[0074]作為一種示例，在目標(biāo)音色為第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色時(shí)，自適應(yīng)變換模塊40還用于根據(jù)目標(biāo)音色對(duì)第二譜參數(shù)模型進(jìn)行自適應(yīng)變換。譜參數(shù)生成模塊50還用于根據(jù)第一譜參數(shù)模型對(duì)待合成語句文本信息中第一語種類型對(duì)應(yīng)的待合成語句進(jìn)行訓(xùn)練，以生成第一語種類型的譜參數(shù)，并根據(jù)自適應(yīng)變換后的第二譜參數(shù)模型對(duì)待合成語句文本信息中第二語種類型對(duì)應(yīng)的待合成語句進(jìn)行訓(xùn)練，以生成第二語種類型的譜參數(shù)?；l參數(shù)調(diào)整模塊70還用于根據(jù)目標(biāo)音色對(duì)第二語種類型的基頻參數(shù)進(jìn)行調(diào)整。語音合成模塊80還用于依據(jù)第一語種類型的譜參數(shù)、第二語種類型的譜參數(shù)、第一語種類型的基頻參數(shù)以及調(diào)整后的第二語種類型的基頻參數(shù)合成目標(biāo)語音。
[0075]在本實(shí)施例中，如圖6所示，該自適應(yīng)變換模塊40可包括:獲取單元41和自適應(yīng)變換單元42。其中，獲取單元41用于獲取所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)。自適應(yīng)變換單元42用于根據(jù)所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)對(duì)所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換。
[0076]在本實(shí)施例中，如圖6所示，該基頻參數(shù)調(diào)整模塊70可包括:獲取單元71、目標(biāo)說話人基頻參數(shù)生成單元72和基頻參數(shù)調(diào)整單元73。其中，獲取單元71用于獲取所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)。目標(biāo)說話人基頻參數(shù)生成單元72用于根據(jù)所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)對(duì)所述第二基頻參數(shù)模型進(jìn)行訓(xùn)練，以生成所述目標(biāo)音色對(duì)應(yīng)的目標(biāo)說話人基頻參數(shù)。基頻參數(shù)調(diào)整單元73用于根據(jù)所述目標(biāo)說話人基頻參數(shù)對(duì)所述第二語種類型的基頻參數(shù)進(jìn)行調(diào)整。
[0077]本發(fā)明實(shí)施例的語音合成裝置，確定待合成語句文本中包含哪些語種類型，之后根據(jù)目標(biāo)音色對(duì)各語種類型的譜參數(shù)模型進(jìn)行自適應(yīng)訓(xùn)練，并采用自適應(yīng)訓(xùn)練后的譜參數(shù)模型生成對(duì)應(yīng)的譜參數(shù)，并根據(jù)目標(biāo)音色將生成的各語種類型的基頻參數(shù)進(jìn)行調(diào)整，以得到音色統(tǒng)一的多語種語音，可以理解，上述語言基礎(chǔ)模型利用的大多是單語數(shù)據(jù)建立的模型，降低了模型建立的數(shù)據(jù)成本和實(shí)現(xiàn)難度，減少了多語種合成對(duì)專業(yè)的多語發(fā)音人數(shù)據(jù)的依賴，可以有效地將多語言待合成語句文本合成自然的、準(zhǔn)確的、音色統(tǒng)一的多語種語音，提升了用戶體驗(yàn)。
[0078]在本發(fā)明的描述中，需要理解的是，術(shù)語“第一”、“第二”僅用于描述目的，而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此，限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個(gè)該特征。在本發(fā)明的描述中，“多種”的含義是至少兩種，例如兩種，三種等，除非另有明確具體的限定。
[0079]在本說明書的描述中，參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中，對(duì)上述術(shù)語的示意性表述不必須針對(duì)的是相同的實(shí)施例或示例。而且，描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外，在不相互矛盾的情況下，本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。
[0080]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為，表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分，并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn)，其中可以不按所示出或討論的順序，包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序，來執(zhí)行功能，這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0081]在流程圖中表示或在此以其他方式描述的邏輯和/或步驟，例如，可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表，可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中，以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用，或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說明書而言，〃計(jì)算機(jī)可讀介質(zhì)〃可以是任何可以包含、存儲(chǔ)、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個(gè)或多個(gè)布線的電連接部(電子裝置)，便攜式計(jì)算機(jī)盤盒(磁裝置)，隨機(jī)存取存儲(chǔ)器(RAM)，只讀存儲(chǔ)器(ROM)，可擦除可編輯只讀存儲(chǔ)器(EPR0M或閃速存儲(chǔ)器)，光纖裝置，以及便攜式光盤只讀存儲(chǔ)器(CDR0M)。另外，計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì)，因?yàn)榭梢岳缤ㄟ^對(duì)紙或其他介質(zhì)進(jìn)行光學(xué)掃描，接著進(jìn)行編輯、解譯或必要時(shí)以其他合適方式進(jìn)行處理來以電子方式獲得所述程序，然后將其存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。
[0082]應(yīng)當(dāng)理解，本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中，多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。例如，如果用硬件來實(shí)現(xiàn)，和在另一實(shí)施方式中一樣，可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路，具有合適的組合邏輯門電路的專用集成電路，可編程門陣列(PGA)，現(xiàn)場(chǎng)可編程門陣列(FPGA)等。
[0083]本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成，所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，包括方法實(shí)施例的步驟之一或其組合。
[0084]此外，在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中，也可以是各個(gè)單元單獨(dú)物理存在，也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn)，也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí)，也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。
[0085]上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器，磁盤或光盤等。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例，可以理解的是，上述實(shí)施例是示例性的，不能理解為對(duì)本發(fā)明的限制，本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。
【主權(quán)項(xiàng)】
1.一種語音合成方法，其特征在于，包括以下步驟: 確定待合成語句文本信息所屬的語種類型，其中，所述語種類型包括第一語種類型和第二語種類型；確定所述第一語種類型對(duì)應(yīng)的第一基礎(chǔ)模型，并確定所述第二語種類型對(duì)應(yīng)的第二基礎(chǔ)模型，其中，所述第一基礎(chǔ)模型包括第一譜參數(shù)模型和第一基頻參數(shù)模塊，所述第二基礎(chǔ)模型包括第二譜參數(shù)模型和第二基頻參數(shù)模塊；確定目標(biāo)音色，并根據(jù)所述目標(biāo)音色分別對(duì)所述第一譜參數(shù)模型、所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換，并根據(jù)自適應(yīng)變換后的所述第一譜參數(shù)模型和所述第二譜參數(shù)模型對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的譜參數(shù)；根據(jù)所述第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的基頻參數(shù)，并根據(jù)所述目標(biāo)音色對(duì)所述第一語種類型和第二語種類型的基頻參數(shù)進(jìn)行調(diào)整；依據(jù)所述第一語種類型的譜參數(shù)、所述第二語種類型的譜參數(shù)、調(diào)整后的所述第一語種類型的基頻參數(shù)、第二語種類型的基頻參數(shù)合成目標(biāo)語音。2.如權(quán)利要求1所述的語音合成方法，其特征在于，所述確定目標(biāo)音色，包括: 獲取用戶的用戶信息，并根據(jù)所述用戶信息確定所述用戶的母語所屬種類，其中，所述母語所屬種類包含于所述語種類型中；將所述用戶的母語所屬種類的基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色作為所述目標(biāo)音色。3.如權(quán)利要求1或2所述的語音合成方法，其特征在于，當(dāng)所述目標(biāo)音色為所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色時(shí)，所述根據(jù)所述目標(biāo)音色分別對(duì)所述第一譜參數(shù)模型、所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換，包括: 根據(jù)所述目標(biāo)音色對(duì)所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換；所述根據(jù)自適應(yīng)變換后的所述第一譜參數(shù)模型和所述第二譜參數(shù)模型對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的譜參數(shù)，包括: 根據(jù)所述第一譜參數(shù)模型對(duì)所述待合成語句文本信息中所述第一語種類型對(duì)應(yīng)的待合成語句進(jìn)行訓(xùn)練，以生成所述第一語種類型的譜參數(shù)，并根據(jù)自適應(yīng)變換后的所述第二譜參數(shù)模型對(duì)所述待合成語句文本信息中所述第二語種類型對(duì)應(yīng)的待合成語句進(jìn)行訓(xùn)練，以生成所述第二語種類型的譜參數(shù)；所述根據(jù)所述目標(biāo)音色對(duì)所述第一語種類型和第二語種類型的基頻參數(shù)進(jìn)行調(diào)整，包括: 根據(jù)所述目標(biāo)音色對(duì)所述第二語種類型的基頻參數(shù)進(jìn)行調(diào)整；所述依據(jù)所述第一語種類型的譜參數(shù)、所述第二語種類型的譜參數(shù)、調(diào)整后的所述第一語種類型的基頻參數(shù)、第二語種類型的基頻參數(shù)合成目標(biāo)語音，包括: 依據(jù)所述第一語種類型的譜參數(shù)、所述第二語種類型的譜參數(shù)、所述第一語種類型的基頻參數(shù)以及調(diào)整后的所述第二語種類型的基頻參數(shù)合成所述目標(biāo)語音。4.如權(quán)利要求3所述的語音合成方法，其特征在于，所述根據(jù)所述目標(biāo)音色對(duì)所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換，包括: 獲取所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)；根據(jù)所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)對(duì)所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換。5.如權(quán)利要求3所述的語音合成方法，其特征在于，所述根據(jù)所述目標(biāo)音色對(duì)所述第二語種類型的基頻參數(shù)進(jìn)行調(diào)整，包括: 獲取所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)；根據(jù)所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)對(duì)所述第二基頻參數(shù)模型進(jìn)行訓(xùn)練，以生成所述目標(biāo)音色對(duì)應(yīng)的目標(biāo)說話人基頻參數(shù)；根據(jù)所述目標(biāo)說話人基頻參數(shù)對(duì)所述第二語種類型的基頻參數(shù)進(jìn)行調(diào)整。6.一種語音合成裝置，其特征在于，包括: 第一確定模塊，用于確定待合成語句文本信息所屬的語種類型，其中，所述語種類型包括第一語種類型和第二語種類型；第二確定模塊，用于確定所述第一語種類型對(duì)應(yīng)的第一基礎(chǔ)模型，并確定所述第二語種類型對(duì)應(yīng)的第二基礎(chǔ)模型，其中，所述第一基礎(chǔ)模型包括第一譜參數(shù)模型和第一基頻參數(shù)模塊，所述第二基礎(chǔ)模型包括第二譜參數(shù)模型和第二基頻參數(shù)模塊；第三確定模塊，用于確定目標(biāo)音色；自適應(yīng)變換模塊，用于根據(jù)所述目標(biāo)音色分別對(duì)所述第一譜參數(shù)模型、所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換；譜參數(shù)生成模塊，用于根據(jù)自適應(yīng)變換后的所述第一譜參數(shù)模型和所述第二譜參數(shù)模型對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的譜參數(shù)；基頻參數(shù)生成模塊，用于根據(jù)所述第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的基頻參數(shù)；基頻參數(shù)調(diào)整模塊，用于根據(jù)所述第一基頻參數(shù)模塊、第二基頻參數(shù)模塊對(duì)所述待合成語句文本信息進(jìn)行訓(xùn)練，以生成對(duì)應(yīng)的基頻參數(shù)；語音合成模塊，用于依據(jù)所述第一語種類型的譜參數(shù)、所述第二語種類型的譜參數(shù)、調(diào)整后的所述第一語種類型的基頻參數(shù)、第二語種類型的基頻參數(shù)合成目標(biāo)語音。7.如權(quán)利要求6所述的語音合成裝置，其特征在于，所述第三確定模塊包括: 第一確定單元，用于獲取用戶的用戶信息，并根據(jù)所述用戶信息確定所述用戶的母語所屬種類，其中，所述母語所屬種類包含于所述語種類型中；第二確定單元，用于將所述用戶的母語所屬種類的基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色作為所述目標(biāo)音色。8.如權(quán)利要求6或7所述的語音合成裝置，其特征在于，在所述目標(biāo)音色為所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人的音色時(shí)，所述自適應(yīng)變換模塊還用于根據(jù)所述目標(biāo)音色對(duì)所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換；所述譜參數(shù)生成模塊還用于根據(jù)所述第一譜參數(shù)模型對(duì)所述待合成語句文本信息中所述第一語種類型對(duì)應(yīng)的待合成語句進(jìn)行訓(xùn)練，以生成所述第一語種類型的譜參數(shù)，并根據(jù)自適應(yīng)變換后的所述第二譜參數(shù)模型對(duì)所述待合成語句文本信息中所述第二語種類型對(duì)應(yīng)的待合成語句進(jìn)行訓(xùn)練，以生成所述第二語種類型的譜參數(shù)；所述基頻參數(shù)調(diào)整模塊還用于根據(jù)所述目標(biāo)音色對(duì)所述第二語種類型的基頻參數(shù)進(jìn)行調(diào)整；所述語音合成模塊還用于依據(jù)所述第一語種類型的譜參數(shù)、所述第二語種類型的譜參數(shù)、所述第一語種類型的基頻參數(shù)以及調(diào)整后的所述第二語種類型的基頻參數(shù)合成所述目標(biāo)語音。9.如權(quán)利要求8所述的語音合成裝置，其特征在于，所述自適應(yīng)變換模塊包括: 獲取單元，用于獲取所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)；自適應(yīng)變換單元，用于根據(jù)所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)對(duì)所述第二譜參數(shù)模型進(jìn)行自適應(yīng)變換。10.如權(quán)利要求8所述的語音合成裝置，其特征在于，所述基頻參數(shù)調(diào)整模塊包括: 獲取單元，用于獲取所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)；目標(biāo)說話人基頻參數(shù)生成單元，用于根據(jù)所述第一基礎(chǔ)模型所對(duì)應(yīng)的訓(xùn)練說話人針對(duì)所述第二語種類型的訓(xùn)練語音數(shù)據(jù)對(duì)所述第二基頻參數(shù)模型進(jìn)行訓(xùn)練，以生成所述目標(biāo)音色對(duì)應(yīng)的目標(biāo)說話人基頻參數(shù)；基頻參數(shù)調(diào)整單元，用于根據(jù)所述目標(biāo)說話人基頻參數(shù)對(duì)所述第二語種類型的基頻參數(shù)進(jìn)行調(diào)整。
【文檔編號(hào)】G10L13/047GK105845125SQ201610329738
【公開日】2016年8月10日
【申請(qǐng)日】2016年5月18日
【發(fā)明人】李昊, 康永國
【申請(qǐng)人】百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司

完整全部詳細(xì)技術(shù)資料下載