音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào)：40393526發(fā)布日期：2024-12-20 12:16閱讀：8來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及語(yǔ)音合成，具體涉及一種音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)(計(jì)算機(jī)可讀存儲(chǔ)介質(zhì))。

背景技術(shù)：

1、tts(text?to?speech，即文本到語(yǔ)音的合成技術(shù))，也即通過(guò)一定方法，對(duì)輸入的文本形式內(nèi)容進(jìn)行處理，得到特定說(shuō)話人的語(yǔ)音發(fā)音結(jié)果，目前已廣泛用于語(yǔ)音提示、電子書等領(lǐng)域中。目前，大部分tts技術(shù)都是由前后端兩部分組成，其中前端主要用于將輸入的文本轉(zhuǎn)化為消除歧義的發(fā)音表示，也就是音素，而后端則主要通過(guò)聲學(xué)模型或是聲碼器將音素合成為語(yǔ)音進(jìn)行輸出，可見(jiàn)，將文本轉(zhuǎn)化為合理的音素序列會(huì)影響到整個(gè)文本語(yǔ)音合成技術(shù)的穩(wěn)定性。

2、目前前端處理大多數(shù)都是通過(guò)不同的功能模塊實(shí)現(xiàn)對(duì)文本的不同處理步驟，例如清洗模塊用于對(duì)不發(fā)音的字符提前進(jìn)行清洗、歸一化模塊用于將不規(guī)范的文本表示，例如數(shù)值，規(guī)約成中文漢字序列表示、漢字-拼音轉(zhuǎn)換模塊用于通過(guò)發(fā)音詞典將歸一化后的文本轉(zhuǎn)換為拼音序列等等。然而，上述方式依賴于不同功能模塊之前的順序依賴關(guān)系，且模塊存在噪聲傳遞，從而導(dǎo)致最終生成的音素序列不夠準(zhǔn)確，影響后續(xù)文本語(yǔ)音合成的效果。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施例提供一種音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。

2、第一方面，本申請(qǐng)實(shí)施例提供一種音素序列確定方法，包括：

3、將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列；

4、根據(jù)所述目標(biāo)文本中的字詞生成所述目標(biāo)文本的第一編碼特征，以及根據(jù)所述候選音素序列中的音素生成所述候選音素序列的第二編碼特征；

5、將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型，得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度，其中，所述目標(biāo)相似度包括所述目標(biāo)文本中每一字詞和所述候選音素序列中每一音素之間的相似度；

6、根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列。

7、第二方面，本申請(qǐng)實(shí)施例提供一種音素序列確定裝置，包括：

8、輸入模塊，用于將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列；

9、編碼模塊，用于根據(jù)所述目標(biāo)文本中的字詞生成所述目標(biāo)文本的第一編碼特征，以及根據(jù)所述候選音素序列中的音素生成所述候選音素序列的第二編碼特征；

10、處理模塊，用于將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型，得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度，其中，所述目標(biāo)相似度包括所述目標(biāo)文本中每一字詞和所述候選音素序列中每一音素之間的相似度；

11、篩選模塊，用于根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列。

12、第三方面，本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器存儲(chǔ)有多條指令；處理器從存儲(chǔ)器中加載指令，以執(zhí)行本申請(qǐng)實(shí)施例所提供的任一種音素序列確定方法的步驟。

13、第四方面，本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令，指令適于處理器進(jìn)行加載，以執(zhí)行本申請(qǐng)實(shí)施例所提供的任一種音素序列確定方法的步驟。

14、第五方面，本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序或指令，計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例所提供的任一種音素序列確定方法中的步驟。

15、采用申請(qǐng)實(shí)施例的方案，通過(guò)預(yù)設(shè)第一模型來(lái)對(duì)目標(biāo)文本進(jìn)行處理以得到可能的多個(gè)候選音素序列，然后利用候選音素序列和文本的編碼特征確定出目標(biāo)文本和不同候選音素序列之間的相似度，后續(xù)就可以基于相似度從候選音素序列中確定目標(biāo)文本的目標(biāo)音素序列。由于本申請(qǐng)實(shí)施例提供的預(yù)設(shè)第一模型直接建立了由文本到音素序列的生成關(guān)系，能夠保證所生成的候選音素序列的效果，同時(shí)利用相似度對(duì)音素序列作出篩選，進(jìn)一步保證了所生成的音素序列的準(zhǔn)確度，從而提高了后續(xù)語(yǔ)音合成的效果。

技術(shù)特征：

1.一種音素序列確定方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述第一編碼特征和所述第二編碼特征輸入至預(yù)設(shè)第二模型，得到所述目標(biāo)文本和所述候選音素序列之間的目標(biāo)相似度，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將目標(biāo)文本輸入至預(yù)設(shè)第一模型得到候選音素序列，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述預(yù)設(shè)第一模型是通過(guò)如下步驟訓(xùn)練得到:

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述根據(jù)所述預(yù)測(cè)序列和所述樣本序列計(jì)算所述初始第一模型的第一模型損失值，包括：

6.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述根據(jù)所述預(yù)測(cè)序列和所述樣本序列計(jì)算所述初始第一模型的第一模型損失值的步驟之后，所述方法還包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述預(yù)設(shè)第二模型是通過(guò)如下步驟訓(xùn)練得到：

8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述預(yù)測(cè)相似度矩陣中的矩陣元素包括對(duì)角線元素以及非對(duì)角線元素；

9.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述根據(jù)所述預(yù)測(cè)相似度矩陣中的矩陣元素確定所述初始第二模型對(duì)應(yīng)的第二模型損失值的步驟之后，所述方法還包括：

10.根據(jù)權(quán)利要求1～9任一項(xiàng)所述的方法，其特征在于，所述根據(jù)所述目標(biāo)相似度從所述候選音素序列中確定所述目標(biāo)文本的目標(biāo)音素序列的步驟之后，所述方法還包括：

11.一種音素序列確定裝置，其特征在于，包括：

12.一種計(jì)算機(jī)設(shè)備，其特征在于，包括處理器和存儲(chǔ)器，所述存儲(chǔ)器存儲(chǔ)有多條指令；所述處理器從所述存儲(chǔ)器中加載指令，以執(zhí)行如權(quán)利要求1～10任一項(xiàng)所述的音素序列確定方法的步驟。

13.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令，所述指令適于處理器進(jìn)行加載，以執(zhí)行如權(quán)利要求1～10任一項(xiàng)所述的音素序列確定方法的步驟。

技術(shù)總結(jié)
本申請(qǐng)公開(kāi)了一種音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)，方法包括：將目標(biāo)文本輸入至第一模型得到候選音素序列；根據(jù)目標(biāo)文本中的字詞生成第一編碼特征，根據(jù)候選音素序列中的音素生成第二編碼特征；將第一編碼特征和第二編碼特征輸入至第二模型，得到目標(biāo)相似度，根據(jù)目標(biāo)相似度從候選音素序列中確定目標(biāo)文本的目標(biāo)音素序列。本申請(qǐng)實(shí)施例通過(guò)預(yù)設(shè)第一模型直接建立了由文本到音素序列的生成關(guān)系，能夠保證所生成的候選音素序列的效果，同時(shí)利用相似度對(duì)音素序列作出篩選，進(jìn)一步保證了所生成的音素序列的準(zhǔn)確度，從而提高了后續(xù)語(yǔ)音合成的效果。

技術(shù)研發(fā)人員：喬宏利
受保護(hù)的技術(shù)使用者：馬上消費(fèi)金融股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：?jiǎn)毯昀?/span>
技術(shù)所有人：馬上消費(fèi)金融股份有限公司
我是此專利的發(fā)明人

上一篇：一種裝配自動(dòng)檢測(cè)設(shè)備的制作方法
上一篇：一種叉車底盤距離檢測(cè)工裝的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

音素序列確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程