本申請屬于人聲生成,尤其涉及一種生成唱聲的方法、裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著深度學(xué)習(xí)算法的不斷優(yōu)化,語音合成技術(shù)已經(jīng)能夠?qū)崿F(xiàn)非常接近自然人類語音的生成。這些技術(shù)通過訓(xùn)練大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)人類語音的特征和規(guī)律,從而能夠模擬出各種語音風(fēng)格和情感表達(dá)。
2、除了suno.ai平臺外,沒有比較成熟的人聲生成方式,目前主流做法為轉(zhuǎn)音(即基于已存在的歌曲調(diào)整頻率來達(dá)到與某個人物相似);而從單一旋律到人聲的做法很少,能保持唱歌人特征的做法基本沒有。目前通過歌詞對與歌聲的生成是歌詞+midi進(jìn)行結(jié)合,賦予歌詞每個字不同的音,但是該方法難以考慮整體歌曲的完整性,而且由于是midi音,所產(chǎn)生的聲音是機(jī)械發(fā)音的狀態(tài),并且生成的聲音不能根據(jù)用戶需要轉(zhuǎn)變?yōu)椴煌娘L(fēng)格。
3、因此,如何在聲音生成過程中,保留真人聲音的特點(diǎn),并且根據(jù)需要,將生成的聲音轉(zhuǎn)變?yōu)椴煌娘L(fēng)格,成為了亟需要解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請?zhí)峁┮环N生成唱聲的方法、裝置、電子設(shè)備和存儲介質(zhì),可根據(jù)不同的需求,生成不同風(fēng)格的聲音,在提高了生成質(zhì)量的同時可以指定唱歌人且保留該唱歌人的唱聲特點(diǎn)。
2、第一方面,本申請實(shí)施例提供了一種生成唱聲的方法,所述方法包括:獲取待賦聲歌詞和需求唱聲風(fēng)格,所述待賦聲歌詞通過語言模型獲??;基于所述待賦聲歌詞和所述需求唱聲風(fēng)格,通過第一向量模型,確定歌詞音向量和風(fēng)格音向量,所述第一向量模型通過真實(shí)人聲訓(xùn)練得到;基于所述需求唱聲風(fēng)格,通過第二向量模型,確定背景音向量,所述第二向量模型通過純音樂訓(xùn)練得到;將所述背景音向量轉(zhuǎn)換成midi格式,確定midi背景音;基于所述midi背景音和預(yù)設(shè)背景音頻庫,確定最終背景音;將所述歌詞音向量和所述風(fēng)格音向量合并,并轉(zhuǎn)換成midi格式,確定midi人聲;基于所述midi人聲和預(yù)設(shè)人聲音頻庫,確定最終人聲;基于所述最終背景音和所述最終人聲,確定唱聲。
3、在一種可能的實(shí)現(xiàn)方式中,構(gòu)建所述第一向量模型,包括:獲取唱歌數(shù)據(jù),所述唱歌數(shù)據(jù)包括多個真實(shí)人聲的唱歌干音和原始歌詞;將所述唱歌干音,通過預(yù)處理,確定預(yù)處理干音;基于所述預(yù)處理干音,確定所述預(yù)處理干音對應(yīng)的midi干音文件和所述預(yù)處理干音風(fēng)格;創(chuàng)建所述midi干音文件、所述原始歌詞和所述預(yù)處理干音風(fēng)格的第一映射關(guān)系;將所述第一映射關(guān)系,通過擴(kuò)散模型訓(xùn)練,得到所述第一向量模型。
4、在一種可能的實(shí)現(xiàn)方式中,構(gòu)建所述第二向量模型,包括:獲取多個純音樂數(shù)據(jù);將所述多個純音樂數(shù)據(jù),通過預(yù)處理,確定預(yù)處理純音樂;基于所述預(yù)處理純音樂,確定所述預(yù)處理純音樂對應(yīng)的midi純音樂文件和所述純音樂風(fēng)格;創(chuàng)建所述midi純音樂文件和所述純音樂風(fēng)格的第二映射關(guān)系;將所述第二映射關(guān)系,通過擴(kuò)散模型訓(xùn)練,得到所述第二向量模型。
5、在一種可能的實(shí)現(xiàn)方式中,構(gòu)建所述預(yù)設(shè)人聲音頻庫的方法,包括:對所述預(yù)處理干音和所述midi干音文件進(jìn)行關(guān)聯(lián),確定人聲單元;基于所述人聲單元和所述預(yù)處理干音,確定所述預(yù)設(shè)人聲音頻庫。
6、在一種可能的實(shí)現(xiàn)方式中,構(gòu)建所述預(yù)設(shè)背景音頻庫的方法,包括:對所述預(yù)處理純音樂和所述midi純音樂文件進(jìn)行關(guān)聯(lián),確定背景音單元;基于所述背景音單元和所述預(yù)處理純音樂,確定所述預(yù)設(shè)背景音頻庫。
7、在一種可能的實(shí)現(xiàn)方式中,所述基于所述midi背景音和預(yù)設(shè)背景音頻庫,確定最終背景音之后,所述方法還包括:基于所述最終背景音,反向編碼成調(diào)節(jié)音;相應(yīng)的,將所述歌詞音向量和所述風(fēng)格音向量合并,并轉(zhuǎn)換成midi格式,確定midi人聲,包括:將所述調(diào)節(jié)音、所述歌詞音向量和所述風(fēng)格音向量合并,并轉(zhuǎn)換成midi格式,確定所述midi人聲。
8、在一種可能的實(shí)現(xiàn)方式中,所述將所述歌詞音向量和所述風(fēng)格音向量合并,并轉(zhuǎn)換成midi格式,確定midi人聲,包括:通過預(yù)設(shè)影響系數(shù),將所述歌詞音向量和所述風(fēng)格音向量合并,確定合并音向量,所述預(yù)設(shè)影響系數(shù)用于表征所述風(fēng)格音向量在所述合并音向量中的比重;將所述合并音向量轉(zhuǎn)換成midi格式,確定所述midi人聲。
9、第二方面,本申請實(shí)施例提供了一種生成唱聲的裝置,所述裝置包括:獲取模塊,用于獲取待賦聲歌詞和需求唱聲風(fēng)格,所述待賦聲歌詞通過語言模型獲取;確定模塊,用于基于所述待賦聲歌詞和所述需求唱聲風(fēng)格,通過第一向量模型,確定歌詞音向量和風(fēng)格音向量,所述第一向量模型通過真實(shí)人聲訓(xùn)練得到;所述確定模塊,還用于基于所述需求唱聲風(fēng)格,通過第二向量模型,確定背景音向量,所述第二向量模型通過純音樂訓(xùn)練得到;轉(zhuǎn)換模塊,用于將所述背景音向量轉(zhuǎn)換成midi格式,確定midi背景音;所述確定模塊,還用于基于所述midi背景音和預(yù)設(shè)背景音頻庫,確定最終背景音;所述轉(zhuǎn)換模塊,還用于將所述歌詞音向量和所述風(fēng)格音向量合并,并轉(zhuǎn)換成midi格式,確定midi人聲;所述確定模塊,還用于基于所述midi人聲和預(yù)設(shè)人聲音頻庫,確定最終人聲;所述確定模塊,還用于基于所述最終背景音和所述最終人聲,確定唱聲。
10、第三方面,本申請實(shí)施例提供了一種電子設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)如第一方面或其中任意一種實(shí)現(xiàn)方式所述的方法。
11、第四方面,本申請實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如第一方面或其中任意一種實(shí)現(xiàn)方式所述的方法。
12、第五方面,本申請實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)計(jì)算機(jī)程序產(chǎn)品在電子設(shè)備上運(yùn)行時,使得電子設(shè)備執(zhí)行上述第一方面或其中任意一種實(shí)現(xiàn)方式所述的方法。
13、本申請?zhí)峁┑姆桨?,通過將待賦聲歌詞和需求唱聲風(fēng)格輸入第一向量模型,得到歌詞音向量和風(fēng)格音向量;通過將需求唱聲風(fēng)格輸入第二向量模型,得到背景音向量;基于歌詞音向量和風(fēng)格音向量,得到最終人聲;基于背景音向量,得到最終背景音,結(jié)合最終人聲和最終背景音,確定唱聲。其中,第一向量模型是通過真實(shí)人聲訓(xùn)練得到,第二向量模型,通過純音樂數(shù)據(jù)訓(xùn)練得到。相比于現(xiàn)有技術(shù)中所產(chǎn)生的聲音是機(jī)械發(fā)音的狀態(tài),并且生成的聲音不能根據(jù)用戶需要轉(zhuǎn)變?yōu)椴煌娘L(fēng)格,本申請用戶可以根據(jù)自己的喜好和需求,通過提供需求唱聲風(fēng)格和語言模型生成的歌詞,來指定唱歌人聲音并且保留該唱歌人的唱聲特點(diǎn),從而來定制具有真人聲音的音樂作品的風(fēng)格,并且本申請的自動化生成過程大大提高了音樂創(chuàng)作的效率,減少了人工創(chuàng)作的繁瑣和耗時。同時,用戶無需具備專業(yè)的音樂創(chuàng)作技能,即可通過簡單的輸入獲得滿意的音樂作品。
1.一種生成唱聲的方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,構(gòu)建所述第一向量模型,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,構(gòu)建所述第二向量模型,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,構(gòu)建所述預(yù)設(shè)人聲音頻庫的方法,包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,構(gòu)建所述預(yù)設(shè)背景音頻庫的方法,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述midi背景音和預(yù)設(shè)背景音頻庫,確定最終背景音之后,所述方法還包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述歌詞音向量和所述風(fēng)格音向量合并,轉(zhuǎn)換成midi格式,確定midi人聲,包括:
8.一種生成唱聲的裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的方法。