亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種目標語音生成方法及系統(tǒng)

文檔序號:40387538發(fā)布日期:2024-12-20 12:10閱讀:15來源:國知局
一種目標語音生成方法及系統(tǒng)

本發(fā)明涉及人工智能,尤其涉及一種目標語音生成方法及系統(tǒng)。


背景技術(shù):

1、隨著人工智能技術(shù)的飛速發(fā)展,辯論系統(tǒng)作為自然語言處理與智能交互領(lǐng)域的重要分支,正逐步從理論研究走向?qū)嶋H應(yīng)用。

2、目前,已經(jīng)出現(xiàn)如“辯論者”等辯論系統(tǒng),這些系統(tǒng)通過復(fù)雜的算法和大數(shù)據(jù)訓(xùn)練,實現(xiàn)了從已有辯論語料庫中提取特征,進而模擬并生成具有相似辯論風(fēng)格與內(nèi)容的語音。這種技術(shù)以大量特定個體的辯論語音數(shù)據(jù)作為訓(xùn)練基礎(chǔ),實現(xiàn)對該個體語音特征的精準捕捉與再現(xiàn)。

3、然而,現(xiàn)有技術(shù)雖然能夠基于學(xué)習(xí)到的特征生成相應(yīng)的語音,但其輸出往往受限于訓(xùn)練數(shù)據(jù)中所包含的個體特征,即只能生成與訓(xùn)練集中個體聲音和風(fēng)格相似的辯論語音,當目標說話人沒有足夠多的辯論語音數(shù)據(jù)可供訓(xùn)練時,無法生成目標說話人的辯論語音。


技術(shù)實現(xiàn)思路

1、為解決上述問題,本發(fā)明公開了一種目標語音生成方法及系統(tǒng)。

2、本發(fā)明公開了一種目標語音生成方法,包括以下步驟:

3、獲取第一語音、第二語音以及目標文本;

4、根據(jù)所述第一語音提取信息特征;

5、根據(jù)所述第二語音提取風(fēng)格特征;

6、根據(jù)所述目標文本提取音素對應(yīng)特征;

7、根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音。

8、優(yōu)選的,所述第二語音為辯論語音,

9、相應(yīng)的,所述目標文本為對所述辯論語音進行回復(fù)的反駁文本。

10、優(yōu)選的,根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音,具體為:

11、獲取語音數(shù)據(jù)集并根據(jù)所述語音數(shù)據(jù)集訓(xùn)練大語言模型;

12、將所述信息特征、風(fēng)格特征以及音素對應(yīng)特征輸入訓(xùn)練好的大語言模型,進行自回歸預(yù)測,得到目標語義特征;

13、根據(jù)所述目標語義特征生成目標語音。

14、優(yōu)選的,根據(jù)所述目標語義特征生成目標語音,具體為:

15、根據(jù)所述目標語義特征和語義-聲音轉(zhuǎn)換算法生成目標語音。

16、優(yōu)選的,根據(jù)所述目標語義特征生成目標語音,具體為:

17、根據(jù)所述目標語義特征確定聲學(xué)令牌;

18、根據(jù)所述聲學(xué)令牌生成目標語音。

19、優(yōu)選的,根據(jù)所述聲學(xué)令牌生成目標語音,具體為:

20、根據(jù)所述聲學(xué)令牌,利用語音合成模型或音頻合成技術(shù)生成目標語音。

21、優(yōu)選的,根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音,具體為:

22、根據(jù)所述風(fēng)格特征確定辯論風(fēng)格規(guī)則庫,并從辯論風(fēng)格規(guī)則庫中選取預(yù)設(shè)的辯論風(fēng)格;

23、根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征,生成目標語音。

24、優(yōu)選的,根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征,生成目標語音,具體為:

25、根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征,確定語音調(diào)制模式;

26、根據(jù)所述語音調(diào)制模式,生成目標語音。

27、當所述第二語音為辯論語音時,所述語音數(shù)據(jù)集為對辯數(shù)據(jù)集,相應(yīng)的,根據(jù)語音數(shù)據(jù)集訓(xùn)練大語言模型,具體為:

28、對所述對辯數(shù)據(jù)集中,對辯雙方的語音進行分離,得到對辯雙方的單人音頻;

29、根據(jù)所述對辯雙方的單人音頻,訓(xùn)練大語言模型。

30、本發(fā)明還公開了一種目標語音生成系統(tǒng),包括語音及文本獲取模塊、特征提取模塊、音素提取模塊和目標語音生成模塊,

31、所述語音及文本獲取模塊用于獲取第一語音、第二語音以及目標文本;

32、所述特征提取模塊用于根據(jù)所述第一語音提取信息特征、根據(jù)所述第二語音提取風(fēng)格特征;

33、所述音素提取模塊用于根據(jù)所述目標文本提取音素對應(yīng)特征;

34、所述目標語音生成模塊用于根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音。

35、相較于現(xiàn)有技術(shù),本發(fā)明具有如下有益效果:

36、(1)本發(fā)明以第一語音的信息特征為基礎(chǔ),整合了第二語音的風(fēng)格特征;即便在面臨訓(xùn)練樣本有限的情況下,本發(fā)明也能靈活生成任意說話人在多樣化場景中的音頻,不僅極大地豐富了音頻表達的維度與深度;并且這種跨語音特征的融合顯著提升了目標語音的表達力和說服力,使其更加貼近真實人類交流的情感濃度,能夠大大增加目標語音的自然度,從而引起聽眾的共鳴;

37、(2)本發(fā)明通過深度融合信息特征、風(fēng)格特征以及目標文本,預(yù)測得到目標語義特征,實現(xiàn)了對語音生成過程中語義內(nèi)容與聲學(xué)細節(jié)的精準控制,極大地提升了生成語音的自然流暢度;

38、(3)本發(fā)明能夠生成任意說話人在預(yù)設(shè)場景下的目標語音,因而本發(fā)明可以輕松駕馭并適應(yīng)多樣化的語音風(fēng)格;在生成富含特定情感和風(fēng)格的語音時展現(xiàn)出卓越的靈活性與適應(yīng)性;

39、(4)本發(fā)明的方法及系統(tǒng)能為辯論訓(xùn)練提供實時語音反饋,幫助用戶改進其辯論技巧,從而降低傳統(tǒng)辯論訓(xùn)練的門檻,使更多的用戶能夠提升自己的辯論能力;

40、(5)本發(fā)明生成的目標語音具有高度的自然性和表達力,故本發(fā)明有潛力被應(yīng)用于任何需要高度個性化語音生成的場景,如辯論、電影配音、虛擬助手、互動游戲等。



技術(shù)特征:

1.一種目標語音生成方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的目標語音生成方法,其特征在于,所述第二語音為辯論語音,

3.根據(jù)權(quán)利要求1或2所述的目標語音生成方法,其特征在于,根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音,具體為:

4.根據(jù)權(quán)利要求3所述的目標語音生成方法,其特征在于,根據(jù)所述目標語義特征生成目標語音,具體為:

5.根據(jù)權(quán)利要求3所述的目標語音生成方法,其特征在于,根據(jù)所述目標語義特征生成目標語音,具體為:

6.根據(jù)權(quán)利要求5所述的目標語音生成方法,其特征在于,根據(jù)所述聲學(xué)令牌生成目標語音,具體為:

7.根據(jù)權(quán)利要求2所述的目標語音生成方法,其特征在于,根據(jù)所述信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音,具體為:

8.根據(jù)權(quán)利要求7所述的目標語音生成方法,其特征在于,根據(jù)預(yù)設(shè)的辯論風(fēng)格、所述信息特征以及音素對應(yīng)特征,生成目標語音,具體為:

9.根據(jù)權(quán)利要求3所述的目標語音生成方法,其特征在于,當所述第二語音為辯論語音時,所述語音數(shù)據(jù)集為對辯數(shù)據(jù)集,相應(yīng)的,根據(jù)語音數(shù)據(jù)集訓(xùn)練大語言模型,具體為:

10.一種目標語音生成系統(tǒng),其特征在于,包括語音及文本獲取模塊、特征提取模塊、音素提取模塊和目標語音生成模塊,


技術(shù)總結(jié)
本發(fā)明公開了一種目標語音生成方法及系統(tǒng),方法包括以下步驟:獲取第一語音、第二語音以及目標文本;根據(jù)第一語音提取信息特征;根據(jù)第二語音提取風(fēng)格特征;根據(jù)目標文本提取音素對應(yīng)特征;根據(jù)信息特征、風(fēng)格特征以及音素對應(yīng)特征生成目標語音。本發(fā)明以第一語音的信息特征為基礎(chǔ),進一步整合了第二語音的風(fēng)格特征;即便在面臨訓(xùn)練樣本有限的情況下,本發(fā)明也能靈活生成任意說話人在多樣化場景中的音頻,不僅極大地豐富了音頻表達的維度與深度;并且這種跨語音特征的融合顯著提升了目標語音的表達力和說服力,使其更加貼近真實人類交流的情感濃度,能夠大大增加目標語音的自然度,從而引起聽眾的共鳴。

技術(shù)研發(fā)人員:黃伊喬,武執(zhí)政
受保護的技術(shù)使用者:香港中文大學(xué)(深圳)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1