一種生成唱聲的方法、裝置、電子設(shè)備和存儲介質(zhì)與流程

文檔序號：40381951發(fā)布日期：2024-12-20 12:04閱讀：6來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請屬于人聲生成，尤其涉及一種生成唱聲的方法、裝置、電子設(shè)備和存儲介質(zhì)。

背景技術(shù)：

1、隨著深度學(xué)習(xí)算法的不斷優(yōu)化，語音合成技術(shù)已經(jīng)能夠?qū)崿F(xiàn)非常接近自然人類語音的生成。這些技術(shù)通過訓(xùn)練大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型，學(xué)習(xí)人類語音的特征和規(guī)律，從而能夠模擬出各種語音風(fēng)格和情感表達(dá)。

2、除了suno.ai平臺外，沒有比較成熟的人聲生成方式，目前主流做法為轉(zhuǎn)音(即基于已存在的歌曲調(diào)整頻率來達(dá)到與某個人物相似)；而從單一旋律到人聲的做法很少，能保持唱歌人特征的做法基本沒有。目前通過歌詞對與歌聲的生成是歌詞+midi進(jìn)行結(jié)合，賦予歌詞每個字不同的音，但是該方法難以考慮整體歌曲的完整性，而且由于是midi音，所產(chǎn)生的聲音是機(jī)械發(fā)音的狀態(tài)，并且生成的聲音不能根據(jù)用戶需要轉(zhuǎn)變?yōu)椴煌娘L(fēng)格。

3、因此，如何在聲音生成過程中，保留真人聲音的特點(diǎn)，并且根據(jù)需要，將生成的聲音轉(zhuǎn)變?yōu)椴煌娘L(fēng)格，成為了亟需要解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、本申請?zhí)峁┮环N生成唱聲的方法、裝置、電子設(shè)備和存儲介質(zhì)，可根據(jù)不同的需求，生成不同風(fēng)格的聲音，在提高了生成質(zhì)量的同時可以指定唱歌人且保留該唱歌人的唱聲特點(diǎn)。

2、第一方面，本申請實(shí)施例提供了一種生成唱聲的方法，所述方法包括：獲取待賦聲歌詞和需求唱聲風(fēng)格，所述待賦聲歌詞通過語言模型獲??；基于所述待賦聲歌詞和所述需求唱聲風(fēng)格，通過第一向量模型，確定歌詞音向量和風(fēng)格音向量，所述第一向量模型通過真實(shí)人聲訓(xùn)練得到；基于所述需求唱聲風(fēng)格，通過第二向量模型，確定背景音向量，所述第二向量模型通過純音樂訓(xùn)練得到；將所述背景音向量轉(zhuǎn)換成midi格式，確定midi背景音；基于所述midi背景音和預(yù)設(shè)背景音頻庫，確定最終背景音；將所述歌詞音向量和所述風(fēng)格音向量合并，并轉(zhuǎn)換成midi格式，確定midi人聲；基于所述midi人聲和預(yù)設(shè)人聲音頻庫，確定最終人聲；基于所述最終背景音和所述最終人聲，確定唱聲。

3、在一種可能的實(shí)現(xiàn)方式中，構(gòu)建所述第一向量模型，包括：獲取唱歌數(shù)據(jù)，所述唱歌數(shù)據(jù)包括多個真實(shí)人聲的唱歌干音和原始歌詞；將所述唱歌干音，通過預(yù)處理，確定預(yù)處理干音；基于所述預(yù)處理干音，確定所述預(yù)處理干音對應(yīng)的midi干音文件和所述預(yù)處理干音風(fēng)格；創(chuàng)建所述midi干音文件、所述原始歌詞和所述預(yù)處理干音風(fēng)格的第一映射關(guān)系；將所述第一映射關(guān)系，通過擴(kuò)散模型訓(xùn)練，得到所述第一向量模型。

4、在一種可能的實(shí)現(xiàn)方式中，構(gòu)建所述第二向量模型，包括：獲取多個純音樂數(shù)據(jù)；將所述多個純音樂數(shù)據(jù)，通過預(yù)處理，確定預(yù)處理純音樂；基于所述預(yù)處理純音樂，確定所述預(yù)處理純音樂對應(yīng)的midi純音樂文件和所述純音樂風(fēng)格；創(chuàng)建所述midi純音樂文件和所述純音樂風(fēng)格的第二映射關(guān)系；將所述第二映射關(guān)系，通過擴(kuò)散模型訓(xùn)練，得到所述第二向量模型。

5、在一種可能的實(shí)現(xiàn)方式中，構(gòu)建所述預(yù)設(shè)人聲音頻庫的方法，包括：對所述預(yù)處理干音和所述midi干音文件進(jìn)行關(guān)聯(lián)，確定人聲單元；基于所述人聲單元和所述預(yù)處理干音，確定所述預(yù)設(shè)人聲音頻庫。

6、在一種可能的實(shí)現(xiàn)方式中，構(gòu)建所述預(yù)設(shè)背景音頻庫的方法，包括：對所述預(yù)處理純音樂和所述midi純音樂文件進(jìn)行關(guān)聯(lián)，確定背景音單元；基于所述背景音單元和所述預(yù)處理純音樂，確定所述預(yù)設(shè)背景音頻庫。

7、在一種可能的實(shí)現(xiàn)方式中，所述基于所述midi背景音和預(yù)設(shè)背景音頻庫，確定最終背景音之后，所述方法還包括：基于所述最終背景音，反向編碼成調(diào)節(jié)音；相應(yīng)的，將所述歌詞音向量和所述風(fēng)格音向量合并，并轉(zhuǎn)換成midi格式，確定midi人聲，包括：將所述調(diào)節(jié)音、所述歌詞音向量和所述風(fēng)格音向量合并，并轉(zhuǎn)換成midi格式，確定所述midi人聲。

8、在一種可能的實(shí)現(xiàn)方式中，所述將所述歌詞音向量和所述風(fēng)格音向量合并，并轉(zhuǎn)換成midi格式，確定midi人聲，包括：通過預(yù)設(shè)影響系數(shù)，將所述歌詞音向量和所述風(fēng)格音向量合并，確定合并音向量，所述預(yù)設(shè)影響系數(shù)用于表征所述風(fēng)格音向量在所述合并音向量中的比重；將所述合并音向量轉(zhuǎn)換成midi格式，確定所述midi人聲。

9、第二方面，本申請實(shí)施例提供了一種生成唱聲的裝置，所述裝置包括：獲取模塊，用于獲取待賦聲歌詞和需求唱聲風(fēng)格，所述待賦聲歌詞通過語言模型獲取；確定模塊，用于基于所述待賦聲歌詞和所述需求唱聲風(fēng)格，通過第一向量模型，確定歌詞音向量和風(fēng)格音向量，所述第一向量模型通過真實(shí)人聲訓(xùn)練得到；所述確定模塊，還用于基于所述需求唱聲風(fēng)格，通過第二向量模型，確定背景音向量，所述第二向量模型通過純音樂訓(xùn)練得到；轉(zhuǎn)換模塊，用于將所述背景音向量轉(zhuǎn)換成midi格式，確定midi背景音；所述確定模塊，還用于基于所述midi背景音和預(yù)設(shè)背景音頻庫，確定最終背景音；所述轉(zhuǎn)換模塊，還用于將所述歌詞音向量和所述風(fēng)格音向量合并，并轉(zhuǎn)換成midi格式，確定midi人聲；所述確定模塊，還用于基于所述midi人聲和預(yù)設(shè)人聲音頻庫，確定最終人聲；所述確定模塊，還用于基于所述最終背景音和所述最終人聲，確定唱聲。

10、第三方面，本申請實(shí)施例提供了一種電子設(shè)備，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)如第一方面或其中任意一種實(shí)現(xiàn)方式所述的方法。

11、第四方面，本申請實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì)，所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如第一方面或其中任意一種實(shí)現(xiàn)方式所述的方法。

12、第五方面，本申請實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品，當(dāng)計(jì)算機(jī)程序產(chǎn)品在電子設(shè)備上運(yùn)行時，使得電子設(shè)備執(zhí)行上述第一方面或其中任意一種實(shí)現(xiàn)方式所述的方法。

13、本申請?zhí)峁┑姆桨?，通過將待賦聲歌詞和需求唱聲風(fēng)格輸入第一向量模型，得到歌詞音向量和風(fēng)格音向量；通過將需求唱聲風(fēng)格輸入第二向量模型，得到背景音向量；基于歌詞音向量和風(fēng)格音向量，得到最終人聲；基于背景音向量，得到最終背景音，結(jié)合最終人聲和最終背景音，確定唱聲。其中，第一向量模型是通過真實(shí)人聲訓(xùn)練得到，第二向量模型，通過純音樂數(shù)據(jù)訓(xùn)練得到。相比于現(xiàn)有技術(shù)中所產(chǎn)生的聲音是機(jī)械發(fā)音的狀態(tài)，并且生成的聲音不能根據(jù)用戶需要轉(zhuǎn)變?yōu)椴煌娘L(fēng)格，本申請用戶可以根據(jù)自己的喜好和需求，通過提供需求唱聲風(fēng)格和語言模型生成的歌詞，來指定唱歌人聲音并且保留該唱歌人的唱聲特點(diǎn)，從而來定制具有真人聲音的音樂作品的風(fēng)格，并且本申請的自動化生成過程大大提高了音樂創(chuàng)作的效率，減少了人工創(chuàng)作的繁瑣和耗時。同時，用戶無需具備專業(yè)的音樂創(chuàng)作技能，即可通過簡單的輸入獲得滿意的音樂作品。

技術(shù)特征：

1.一種生成唱聲的方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，構(gòu)建所述第一向量模型，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，構(gòu)建所述第二向量模型，包括：

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，構(gòu)建所述預(yù)設(shè)人聲音頻庫的方法，包括：

5.根據(jù)權(quán)利要求3所述的方法，其特征在于，構(gòu)建所述預(yù)設(shè)背景音頻庫的方法，包括：

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述midi背景音和預(yù)設(shè)背景音頻庫，確定最終背景音之后，所述方法還包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述歌詞音向量和所述風(fēng)格音向量合并，轉(zhuǎn)換成midi格式，確定midi人聲，包括：

8.一種生成唱聲的裝置，其特征在于，所述裝置包括：

9.一種電子設(shè)備，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲介質(zhì)，所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本申請屬于人聲生成技術(shù)領(lǐng)域，尤其涉及一種生成唱聲的方法、裝置、電子設(shè)備和存儲介質(zhì)。本申請通過將待賦聲歌詞和需求唱聲風(fēng)格輸入第一向量模型，得到歌詞音向量和風(fēng)格音向量；通過將需求唱聲風(fēng)格輸入第二向量模型，得到背景音向量；基于歌詞音向量和風(fēng)格音向量，得到最終人聲；基于背景音向量，得到最終背景音，結(jié)合最終人聲和最終背景音，確定唱聲。通過本申請，用戶可以根據(jù)自己的喜好和需求，通過提供需求唱聲風(fēng)格和語言模型生成的歌詞，來指定唱歌人聲音，并且保留該唱歌人的唱聲特點(diǎn)，從而來定制具有真人聲音的音樂作品的風(fēng)格，并且本申請的自動化生成過程大大提高了音樂創(chuàng)作的效率，減少了人工創(chuàng)作的繁瑣和耗時。

技術(shù)研發(fā)人員：周乃杰
受保護(hù)的技術(shù)使用者：星創(chuàng)藝（昆山）文娛有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周乃杰
技術(shù)所有人：星創(chuàng)藝（昆山）文娛有限公司
我是此專利的發(fā)明人

上一篇：一種太陽能中繼器的制作方法
上一篇：過熱器吊裝結(jié)構(gòu)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種生成唱聲的方法、裝置、電子設(shè)備和存儲介質(zhì)與流程

一種生成唱聲的方法、裝置、電子設(shè)備和存儲介質(zhì)與流程