本申請(qǐng)涉及語(yǔ)音合成,具體涉及一種音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)(計(jì)算機(jī)可讀存儲(chǔ)介質(zhì))。
背景技術(shù):
1、tts(text?to?speech,即文本到語(yǔ)音的合成技術(shù)),也即通過(guò)一定方法,對(duì)輸入的文本形式內(nèi)容進(jìn)行處理,得到特定說(shuō)話人的語(yǔ)音發(fā)音結(jié)果,目前已廣泛用于語(yǔ)音提示、電子書等領(lǐng)域中。目前,大部分tts技術(shù)都是由前后端兩部分組成,其中前端主要用于將輸入的文本轉(zhuǎn)化為消除歧義的發(fā)音表示,也就是音素,而后端則主要通過(guò)聲學(xué)模型或是聲碼器將音素合成為語(yǔ)音進(jìn)行輸出,可見(jiàn),將文本轉(zhuǎn)化為合理的音素序列會(huì)影響到整個(gè)文本語(yǔ)音合成技術(shù)的穩(wěn)定性。
2、目前前端處理大多數(shù)都是通過(guò)不同的功能模塊實(shí)現(xiàn)對(duì)文本的不同處理步驟,例如清洗模塊用于對(duì)不發(fā)音的字符提前進(jìn)行清洗、歸一化模塊用于將不規(guī)范的文本表示,例如數(shù)值,規(guī)約成中文漢字序列表示、漢字-拼音轉(zhuǎn)換模塊用于通過(guò)發(fā)音詞典將歸一化后的文本轉(zhuǎn)換為拼音序列等等。然而,上述方式依賴于不同功能模塊之前的順序依賴關(guān)系,且模塊存在噪聲傳遞,從而導(dǎo)致最終生成的音素序列不夠準(zhǔn)確,影響后續(xù)文本語(yǔ)音合成的效果。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
2、第一方面,本申請(qǐng)實(shí)施例提供一種音素序列確定方法,包括:
3、將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列;
4、根據(jù)所述目標(biāo)文本中的字詞生成所述目標(biāo)文本的第一編碼特征,以及根據(jù)所述候選音素序列中的音素生成所述候選音素序列的第二編碼特征;
5、將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型,得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度,其中,所述目標(biāo)相似度包括所述目標(biāo)文本中每一字詞和所述候選音素序列中每一音素之間的相似度;
6、根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列。
7、第二方面,本申請(qǐng)實(shí)施例提供一種音素序列確定裝置,包括:
8、輸入模塊,用于將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列;
9、編碼模塊,用于根據(jù)所述目標(biāo)文本中的字詞生成所述目標(biāo)文本的第一編碼特征,以及根據(jù)所述候選音素序列中的音素生成所述候選音素序列的第二編碼特征;
10、處理模塊,用于將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型,得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度,其中,所述目標(biāo)相似度包括所述目標(biāo)文本中每一字詞和所述候選音素序列中每一音素之間的相似度;
11、篩選模塊,用于根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列。
12、第三方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器存儲(chǔ)有多條指令;處理器從存儲(chǔ)器中加載指令,以執(zhí)行本申請(qǐng)實(shí)施例所提供的任一種音素序列確定方法的步驟。
13、第四方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,指令適于處理器進(jìn)行加載,以執(zhí)行本申請(qǐng)實(shí)施例所提供的任一種音素序列確定方法的步驟。
14、第五方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例所提供的任一種音素序列確定方法中的步驟。
15、采用申請(qǐng)實(shí)施例的方案,通過(guò)預(yù)設(shè)第一模型來(lái)對(duì)目標(biāo)文本進(jìn)行處理以得到可能的多個(gè)候選音素序列,然后利用候選音素序列和文本的編碼特征確定出目標(biāo)文本和不同候選音素序列之間的相似度,后續(xù)就可以基于相似度從候選音素序列中確定目標(biāo)文本的目標(biāo)音素序列。由于本申請(qǐng)實(shí)施例提供的預(yù)設(shè)第一模型直接建立了由文本到音素序列的生成關(guān)系,能夠保證所生成的候選音素序列的效果,同時(shí)利用相似度對(duì)音素序列作出篩選,進(jìn)一步保證了所生成的音素序列的準(zhǔn)確度,從而提高了后續(xù)語(yǔ)音合成的效果。
1.一種音素序列確定方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型,得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)第一模型是通過(guò)如下步驟訓(xùn)練得到:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述預(yù)測(cè)序列和所述樣本序列計(jì)算所述初始第一模型的第一模型損失值,包括:
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述預(yù)測(cè)序列和所述樣本序列計(jì)算所述初始第一模型的第一模型損失值的步驟之后,所述方法還包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)第二模型是通過(guò)如下步驟訓(xùn)練得到:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述預(yù)測(cè)相似度矩陣中的矩陣元素包括對(duì)角線元素以及非對(duì)角線元素;
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)所述預(yù)測(cè)相似度矩陣中的矩陣元素確定所述初始第二模型對(duì)應(yīng)的第二模型損失值的步驟之后,所述方法還包括:
10.根據(jù)權(quán)利要求1~9任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列的步驟之后,所述方法還包括:
11.一種音素序列確定裝置,其特征在于,包括:
12.一種計(jì)算機(jī)設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有多條指令;所述處理器從所述存儲(chǔ)器中加載指令,以執(zhí)行如權(quán)利要求1~10任一項(xiàng)所述的音素序列確定方法的步驟。
13.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,所述指令適于處理器進(jìn)行加載,以執(zhí)行如權(quán)利要求1~10任一項(xiàng)所述的音素序列確定方法的步驟。