亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40393526發(fā)布日期:2024-12-20 12:16閱讀:8來(lái)源:國(guó)知局
音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及語(yǔ)音合成,具體涉及一種音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)(計(jì)算機(jī)可讀存儲(chǔ)介質(zhì))。


背景技術(shù):

1、tts(text?to?speech,即文本到語(yǔ)音的合成技術(shù)),也即通過(guò)一定方法,對(duì)輸入的文本形式內(nèi)容進(jìn)行處理,得到特定說(shuō)話人的語(yǔ)音發(fā)音結(jié)果,目前已廣泛用于語(yǔ)音提示、電子書等領(lǐng)域中。目前,大部分tts技術(shù)都是由前后端兩部分組成,其中前端主要用于將輸入的文本轉(zhuǎn)化為消除歧義的發(fā)音表示,也就是音素,而后端則主要通過(guò)聲學(xué)模型或是聲碼器將音素合成為語(yǔ)音進(jìn)行輸出,可見(jiàn),將文本轉(zhuǎn)化為合理的音素序列會(huì)影響到整個(gè)文本語(yǔ)音合成技術(shù)的穩(wěn)定性。

2、目前前端處理大多數(shù)都是通過(guò)不同的功能模塊實(shí)現(xiàn)對(duì)文本的不同處理步驟,例如清洗模塊用于對(duì)不發(fā)音的字符提前進(jìn)行清洗、歸一化模塊用于將不規(guī)范的文本表示,例如數(shù)值,規(guī)約成中文漢字序列表示、漢字-拼音轉(zhuǎn)換模塊用于通過(guò)發(fā)音詞典將歸一化后的文本轉(zhuǎn)換為拼音序列等等。然而,上述方式依賴于不同功能模塊之前的順序依賴關(guān)系,且模塊存在噪聲傳遞,從而導(dǎo)致最終生成的音素序列不夠準(zhǔn)確,影響后續(xù)文本語(yǔ)音合成的效果。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。

2、第一方面,本申請(qǐng)實(shí)施例提供一種音素序列確定方法,包括:

3、將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列;

4、根據(jù)所述目標(biāo)文本中的字詞生成所述目標(biāo)文本的第一編碼特征,以及根據(jù)所述候選音素序列中的音素生成所述候選音素序列的第二編碼特征;

5、將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型,得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度,其中,所述目標(biāo)相似度包括所述目標(biāo)文本中每一字詞和所述候選音素序列中每一音素之間的相似度;

6、根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列。

7、第二方面,本申請(qǐng)實(shí)施例提供一種音素序列確定裝置,包括:

8、輸入模塊,用于將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列;

9、編碼模塊,用于根據(jù)所述目標(biāo)文本中的字詞生成所述目標(biāo)文本的第一編碼特征,以及根據(jù)所述候選音素序列中的音素生成所述候選音素序列的第二編碼特征;

10、處理模塊,用于將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型,得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度,其中,所述目標(biāo)相似度包括所述目標(biāo)文本中每一字詞和所述候選音素序列中每一音素之間的相似度;

11、篩選模塊,用于根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列。

12、第三方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器存儲(chǔ)有多條指令;處理器從存儲(chǔ)器中加載指令,以執(zhí)行本申請(qǐng)實(shí)施例所提供的任一種音素序列確定方法的步驟。

13、第四方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,指令適于處理器進(jìn)行加載,以執(zhí)行本申請(qǐng)實(shí)施例所提供的任一種音素序列確定方法的步驟。

14、第五方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例所提供的任一種音素序列確定方法中的步驟。

15、采用申請(qǐng)實(shí)施例的方案,通過(guò)預(yù)設(shè)第一模型來(lái)對(duì)目標(biāo)文本進(jìn)行處理以得到可能的多個(gè)候選音素序列,然后利用候選音素序列和文本的編碼特征確定出目標(biāo)文本和不同候選音素序列之間的相似度,后續(xù)就可以基于相似度從候選音素序列中確定目標(biāo)文本的目標(biāo)音素序列。由于本申請(qǐng)實(shí)施例提供的預(yù)設(shè)第一模型直接建立了由文本到音素序列的生成關(guān)系,能夠保證所生成的候選音素序列的效果,同時(shí)利用相似度對(duì)音素序列作出篩選,進(jìn)一步保證了所生成的音素序列的準(zhǔn)確度,從而提高了后續(xù)語(yǔ)音合成的效果。



技術(shù)特征:

1.一種音素序列確定方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型,得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度,包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列,包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)第一模型是通過(guò)如下步驟訓(xùn)練得到:

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述預(yù)測(cè)序列和所述樣本序列計(jì)算所述初始第一模型的第一模型損失值,包括:

6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述預(yù)測(cè)序列和所述樣本序列計(jì)算所述初始第一模型的第一模型損失值的步驟之后,所述方法還包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)第二模型是通過(guò)如下步驟訓(xùn)練得到:

8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述預(yù)測(cè)相似度矩陣中的矩陣元素包括對(duì)角線元素以及非對(duì)角線元素;

9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)所述預(yù)測(cè)相似度矩陣中的矩陣元素確定所述初始第二模型對(duì)應(yīng)的第二模型損失值的步驟之后,所述方法還包括:

10.根據(jù)權(quán)利要求1~9任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列的步驟之后,所述方法還包括:

11.一種音素序列確定裝置,其特征在于,包括:

12.一種計(jì)算機(jī)設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有多條指令;所述處理器從所述存儲(chǔ)器中加載指令,以執(zhí)行如權(quán)利要求1~10任一項(xiàng)所述的音素序列確定方法的步驟。

13.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,所述指令適于處理器進(jìn)行加載,以執(zhí)行如權(quán)利要求1~10任一項(xiàng)所述的音素序列確定方法的步驟。


技術(shù)總結(jié)
本申請(qǐng)公開(kāi)了一種音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),方法包括:將目標(biāo)文本輸入至第一模型得到候選音素序列;根據(jù)目標(biāo)文本中的字詞生成第一編碼特征,根據(jù)候選音素序列中的音素生成第二編碼特征;將第一編碼特征和第二編碼特征輸入至第二模型,得到目標(biāo)相似度,根據(jù)目標(biāo)相似度從候選音素序列中確定目標(biāo)文本的目標(biāo)音素序列。本申請(qǐng)實(shí)施例通過(guò)預(yù)設(shè)第一模型直接建立了由文本到音素序列的生成關(guān)系,能夠保證所生成的候選音素序列的效果,同時(shí)利用相似度對(duì)音素序列作出篩選,進(jìn)一步保證了所生成的音素序列的準(zhǔn)確度,從而提高了后續(xù)語(yǔ)音合成的效果。

技術(shù)研發(fā)人員:喬宏利
受保護(hù)的技術(shù)使用者:馬上消費(fèi)金融股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1