本發(fā)明涉及人工智能,尤其涉及一種目標語音生成方法及系統(tǒng)。
背景技術(shù):
1、隨著人工智能技術(shù)的飛速發(fā)展,辯論系統(tǒng)作為自然語言處理與智能交互領(lǐng)域的重要分支,正逐步從理論研究走向?qū)嶋H應(yīng)用。
2、目前,已經(jīng)出現(xiàn)如“辯論者”等辯論系統(tǒng),這些系統(tǒng)通過復(fù)雜的算法和大數(shù)據(jù)訓(xùn)練,實現(xiàn)了從已有辯論語料庫中提取特征,進而模擬并生成具有相似辯論風(fēng)格與內(nèi)容的語音。這種技術(shù)以大量特定個體的辯論語音數(shù)據(jù)作為訓(xùn)練基礎(chǔ),實現(xiàn)對該個體語音特征的精準捕捉與再現(xiàn)。
3、然而,現(xiàn)有技術(shù)雖然能夠基于學(xué)習(xí)到的特征生成相應(yīng)的語音,但其輸出往往受限于訓(xùn)練數(shù)據(jù)中所包含的個體特征,即只能生成與訓(xùn)練集中個體聲音和風(fēng)格相似的辯論語音,當目標說話人沒有足夠多的辯論語音數(shù)據(jù)可供訓(xùn)練時,無法生成目標說話人的辯論語音。
技術(shù)實現(xiàn)思路
1、為解決上述問題,本發(fā)明公開了一種目標語音生成方法及系統(tǒng)。
2、本發(fā)明公開了一種目標語音生成方法,包括以下步驟:
3、獲取第一語音、第二語音以及目標文本;
4、根據(jù)所述第一語音提取信息特征;
5、根據(jù)所述第二語音提取風(fēng)格特征;
6、根據(jù)所述目標文本提取音素對應(yīng)特征;
7、根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音。
8、優(yōu)選的,所述第二語音為辯論語音,
9、相應(yīng)的,所述目標文本為對所述辯論語音進行回復(fù)的反駁文本。
10、優(yōu)選的,根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音,具體為:
11、獲取語音數(shù)據(jù)集并根據(jù)所述語音數(shù)據(jù)集訓(xùn)練大語言模型;
12、將所述信息特征、風(fēng)格特征以及音素對應(yīng)特征輸入訓(xùn)練好的大語言模型,進行自回歸預(yù)測,得到目標語義特征;
13、根據(jù)所述目標語義特征生成目標語音。
14、優(yōu)選的,根據(jù)所述目標語義特征生成目標語音,具體為:
15、根據(jù)所述目標語義特征和語義-聲音轉(zhuǎn)換算法生成目標語音。
16、優(yōu)選的,根據(jù)所述目標語義特征生成目標語音,具體為:
17、根據(jù)所述目標語義特征確定聲學(xué)令牌;
18、根據(jù)所述聲學(xué)令牌生成目標語音。
19、優(yōu)選的,根據(jù)所述聲學(xué)令牌生成目標語音,具體為:
20、根據(jù)所述聲學(xué)令牌,利用語音合成模型或音頻合成技術(shù)生成目標語音。
21、優(yōu)選的,根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音,具體為:
22、根據(jù)所述風(fēng)格特征確定辯論風(fēng)格規(guī)則庫,并從辯論風(fēng)格規(guī)則庫中選取預(yù)設(shè)的辯論風(fēng)格;
23、根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征,生成目標語音。
24、優(yōu)選的,根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征,生成目標語音,具體為:
25、根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征,確定語音調(diào)制模式;
26、根據(jù)所述語音調(diào)制模式,生成目標語音。
27、當所述第二語音為辯論語音時,所述語音數(shù)據(jù)集為對辯數(shù)據(jù)集,相應(yīng)的,根據(jù)語音數(shù)據(jù)集訓(xùn)練大語言模型,具體為:
28、對所述對辯數(shù)據(jù)集中,對辯雙方的語音進行分離,得到對辯雙方的單人音頻;
29、根據(jù)所述對辯雙方的單人音頻,訓(xùn)練大語言模型。
30、本發(fā)明還公開了一種目標語音生成系統(tǒng),包括語音及文本獲取模塊、特征提取模塊、音素提取模塊和目標語音生成模塊,
31、所述語音及文本獲取模塊用于獲取第一語音、第二語音以及目標文本;
32、所述特征提取模塊用于根據(jù)所述第一語音提取信息特征、根據(jù)所述第二語音提取風(fēng)格特征;
33、所述音素提取模塊用于根據(jù)所述目標文本提取音素對應(yīng)特征;
34、所述目標語音生成模塊用于根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音。
35、相較于現(xiàn)有技術(shù),本發(fā)明具有如下有益效果:
36、(1)本發(fā)明以第一語音的信息特征為基礎(chǔ),整合了第二語音的風(fēng)格特征;即便在面臨訓(xùn)練樣本有限的情況下,本發(fā)明也能靈活生成任意說話人在多樣化場景中的音頻,不僅極大地豐富了音頻表達的維度與深度;并且這種跨語音特征的融合顯著提升了目標語音的表達力和說服力,使其更加貼近真實人類交流的情感濃度,能夠大大增加目標語音的自然度,從而引起聽眾的共鳴;
37、(2)本發(fā)明通過深度融合信息特征、風(fēng)格特征以及目標文本,預(yù)測得到目標語義特征,實現(xiàn)了對語音生成過程中語義內(nèi)容與聲學(xué)細節(jié)的精準控制,極大地提升了生成語音的自然流暢度;
38、(3)本發(fā)明能夠生成任意說話人在預(yù)設(shè)場景下的目標語音,因而本發(fā)明可以輕松駕馭并適應(yīng)多樣化的語音風(fēng)格;在生成富含特定情感和風(fēng)格的語音時展現(xiàn)出卓越的靈活性與適應(yīng)性;
39、(4)本發(fā)明的方法及系統(tǒng)能為辯論訓(xùn)練提供實時語音反饋,幫助用戶改進其辯論技巧,從而降低傳統(tǒng)辯論訓(xùn)練的門檻,使更多的用戶能夠提升自己的辯論能力;
40、(5)本發(fā)明生成的目標語音具有高度的自然性和表達力,故本發(fā)明有潛力被應(yīng)用于任何需要高度個性化語音生成的場景,如辯論、電影配音、虛擬助手、互動游戲等。
1.一種目標語音生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的目標語音生成方法,其特征在于,所述第二語音為辯論語音,
3.根據(jù)權(quán)利要求1或2所述的目標語音生成方法,其特征在于,根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音,具體為:
4.根據(jù)權(quán)利要求3所述的目標語音生成方法,其特征在于,根據(jù)所述目標語義特征生成目標語音,具體為:
5.根據(jù)權(quán)利要求3所述的目標語音生成方法,其特征在于,根據(jù)所述目標語義特征生成目標語音,具體為:
6.根據(jù)權(quán)利要求5所述的目標語音生成方法,其特征在于,根據(jù)所述聲學(xué)令牌生成目標語音,具體為:
7.根據(jù)權(quán)利要求2所述的目標語音生成方法,其特征在于,根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音,具體為:
8.根據(jù)權(quán)利要求7所述的目標語音生成方法,其特征在于,根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征,生成目標語音,具體為:
9.根據(jù)權(quán)利要求3所述的目標語音生成方法,其特征在于,當所述第二語音為辯論語音時,所述語音數(shù)據(jù)集為對辯數(shù)據(jù)集,相應(yīng)的,根據(jù)語音數(shù)據(jù)集訓(xùn)練大語言模型,具體為:
10.一種目標語音生成系統(tǒng),其特征在于,包括語音及文本獲取模塊、特征提取模塊、音素提取模塊和目標語音生成模塊,