一種目標語音生成方法及系統(tǒng)

文檔序號：40387538發(fā)布日期：2024-12-20 12:10閱讀：15來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及人工智能，尤其涉及一種目標語音生成方法及系統(tǒng)。

背景技術(shù)：

1、隨著人工智能技術(shù)的飛速發(fā)展，辯論系統(tǒng)作為自然語言處理與智能交互領(lǐng)域的重要分支，正逐步從理論研究走向?qū)嶋H應(yīng)用。

2、目前，已經(jīng)出現(xiàn)如“辯論者”等辯論系統(tǒng)，這些系統(tǒng)通過復(fù)雜的算法和大數(shù)據(jù)訓(xùn)練，實現(xiàn)了從已有辯論語料庫中提取特征，進而模擬并生成具有相似辯論風(fēng)格與內(nèi)容的語音。這種技術(shù)以大量特定個體的辯論語音數(shù)據(jù)作為訓(xùn)練基礎(chǔ)，實現(xiàn)對該個體語音特征的精準捕捉與再現(xiàn)。

3、然而，現(xiàn)有技術(shù)雖然能夠基于學(xué)習(xí)到的特征生成相應(yīng)的語音，但其輸出往往受限于訓(xùn)練數(shù)據(jù)中所包含的個體特征，即只能生成與訓(xùn)練集中個體聲音和風(fēng)格相似的辯論語音，當目標說話人沒有足夠多的辯論語音數(shù)據(jù)可供訓(xùn)練時，無法生成目標說話人的辯論語音。

技術(shù)實現(xiàn)思路

1、為解決上述問題，本發(fā)明公開了一種目標語音生成方法及系統(tǒng)。

2、本發(fā)明公開了一種目標語音生成方法，包括以下步驟：

3、獲取第一語音、第二語音以及目標文本；

4、根據(jù)所述第一語音提取信息特征；

5、根據(jù)所述第二語音提取風(fēng)格特征；

6、根據(jù)所述目標文本提取音素對應(yīng)特征；

7、根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音。

8、優(yōu)選的，所述第二語音為辯論語音，

9、相應(yīng)的，所述目標文本為對所述辯論語音進行回復(fù)的反駁文本。

10、優(yōu)選的，根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音，具體為：

11、獲取語音數(shù)據(jù)集并根據(jù)所述語音數(shù)據(jù)集訓(xùn)練大語言模型；

12、將所述信息特征、風(fēng)格特征以及音素對應(yīng)特征輸入訓(xùn)練好的大語言模型，進行自回歸預(yù)測，得到目標語義特征；

13、根據(jù)所述目標語義特征生成目標語音。

14、優(yōu)選的，根據(jù)所述目標語義特征生成目標語音，具體為：

15、根據(jù)所述目標語義特征和語義-聲音轉(zhuǎn)換算法生成目標語音。

16、優(yōu)選的，根據(jù)所述目標語義特征生成目標語音，具體為：

17、根據(jù)所述目標語義特征確定聲學(xué)令牌；

18、根據(jù)所述聲學(xué)令牌生成目標語音。

19、優(yōu)選的，根據(jù)所述聲學(xué)令牌生成目標語音，具體為：

20、根據(jù)所述聲學(xué)令牌，利用語音合成模型或音頻合成技術(shù)生成目標語音。

21、優(yōu)選的，根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音，具體為：

22、根據(jù)所述風(fēng)格特征確定辯論風(fēng)格規(guī)則庫，并從辯論風(fēng)格規(guī)則庫中選取預(yù)設(shè)的辯論風(fēng)格；

23、根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征，生成目標語音。

24、優(yōu)選的，根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征，生成目標語音，具體為：

25、根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征，確定語音調(diào)制模式；

26、根據(jù)所述語音調(diào)制模式，生成目標語音。

27、當所述第二語音為辯論語音時，所述語音數(shù)據(jù)集為對辯數(shù)據(jù)集，相應(yīng)的，根據(jù)語音數(shù)據(jù)集訓(xùn)練大語言模型，具體為：

28、對所述對辯數(shù)據(jù)集中，對辯雙方的語音進行分離，得到對辯雙方的單人音頻；

29、根據(jù)所述對辯雙方的單人音頻，訓(xùn)練大語言模型。

30、本發(fā)明還公開了一種目標語音生成系統(tǒng)，包括語音及文本獲取模塊、特征提取模塊、音素提取模塊和目標語音生成模塊，

31、所述語音及文本獲取模塊用于獲取第一語音、第二語音以及目標文本；

32、所述特征提取模塊用于根據(jù)所述第一語音提取信息特征、根據(jù)所述第二語音提取風(fēng)格特征；

33、所述音素提取模塊用于根據(jù)所述目標文本提取音素對應(yīng)特征；

34、所述目標語音生成模塊用于根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音。

35、相較于現(xiàn)有技術(shù)，本發(fā)明具有如下有益效果：

36、（1）本發(fā)明以第一語音的信息特征為基礎(chǔ)，整合了第二語音的風(fēng)格特征；即便在面臨訓(xùn)練樣本有限的情況下，本發(fā)明也能靈活生成任意說話人在多樣化場景中的音頻，不僅極大地豐富了音頻表達的維度與深度；并且這種跨語音特征的融合顯著提升了目標語音的表達力和說服力，使其更加貼近真實人類交流的情感濃度，能夠大大增加目標語音的自然度，從而引起聽眾的共鳴；

37、（2）本發(fā)明通過深度融合信息特征、風(fēng)格特征以及目標文本，預(yù)測得到目標語義特征，實現(xiàn)了對語音生成過程中語義內(nèi)容與聲學(xué)細節(jié)的精準控制，極大地提升了生成語音的自然流暢度；

38、（3）本發(fā)明能夠生成任意說話人在預(yù)設(shè)場景下的目標語音，因而本發(fā)明可以輕松駕馭并適應(yīng)多樣化的語音風(fēng)格；在生成富含特定情感和風(fēng)格的語音時展現(xiàn)出卓越的靈活性與適應(yīng)性；

39、（4）本發(fā)明的方法及系統(tǒng)能為辯論訓(xùn)練提供實時語音反饋，幫助用戶改進其辯論技巧，從而降低傳統(tǒng)辯論訓(xùn)練的門檻，使更多的用戶能夠提升自己的辯論能力；

40、（5）本發(fā)明生成的目標語音具有高度的自然性和表達力，故本發(fā)明有潛力被應(yīng)用于任何需要高度個性化語音生成的場景，如辯論、電影配音、虛擬助手、互動游戲等。

技術(shù)特征：

1.一種目標語音生成方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的目標語音生成方法，其特征在于，所述第二語音為辯論語音，

3.根據(jù)權(quán)利要求1或2所述的目標語音生成方法，其特征在于，根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音，具體為：

4.根據(jù)權(quán)利要求3所述的目標語音生成方法，其特征在于，根據(jù)所述目標語義特征生成目標語音，具體為：

5.根據(jù)權(quán)利要求3所述的目標語音生成方法，其特征在于，根據(jù)所述目標語義特征生成目標語音，具體為：

6.根據(jù)權(quán)利要求5所述的目標語音生成方法，其特征在于，根據(jù)所述聲學(xué)令牌生成目標語音，具體為：

7.根據(jù)權(quán)利要求2所述的目標語音生成方法，其特征在于，根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音，具體為：

8.根據(jù)權(quán)利要求7所述的目標語音生成方法，其特征在于，根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征，生成目標語音，具體為：

9.根據(jù)權(quán)利要求3所述的目標語音生成方法，其特征在于，當所述第二語音為辯論語音時，所述語音數(shù)據(jù)集為對辯數(shù)據(jù)集，相應(yīng)的，根據(jù)語音數(shù)據(jù)集訓(xùn)練大語言模型，具體為：

10.一種目標語音生成系統(tǒng)，其特征在于，包括語音及文本獲取模塊、特征提取模塊、音素提取模塊和目標語音生成模塊，

技術(shù)總結(jié)
本發(fā)明公開了一種目標語音生成方法及系統(tǒng)，方法包括以下步驟：獲取第一語音、第二語音以及目標文本；根據(jù)第一語音提取信息特征；根據(jù)第二語音提取風(fēng)格特征；根據(jù)目標文本提取音素對應(yīng)特征；根據(jù)信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音。本發(fā)明以第一語音的信息特征為基礎(chǔ)，進一步整合了第二語音的風(fēng)格特征；即便在面臨訓(xùn)練樣本有限的情況下，本發(fā)明也能靈活生成任意說話人在多樣化場景中的音頻，不僅極大地豐富了音頻表達的維度與深度；并且這種跨語音特征的融合顯著提升了目標語音的表達力和說服力，使其更加貼近真實人類交流的情感濃度，能夠大大增加目標語音的自然度，從而引起聽眾的共鳴。

技術(shù)研發(fā)人員：黃伊喬,武執(zhí)政
受保護的技術(shù)使用者：香港中文大學(xué)（深圳）
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃伊喬,武執(zhí)政
技術(shù)所有人：香港中文大學(xué)（深圳）
我是此專利的發(fā)明人

上一篇：螺旋輸送預(yù)熱機的制作方法
上一篇：一種智能馬桶防水汽結(jié)構(gòu)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種目標語音生成方法及系統(tǒng)