韻律層級(jí)模型訓(xùn)練方法、語(yǔ)音合成方法及裝置的制造方法

文檔序號(hào)：9490321閱讀：556來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

韻律層級(jí)模型訓(xùn)練方法、語(yǔ)音合成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語(yǔ)音技術(shù)領(lǐng)域，尤其涉及一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練方法、使用該韻律層級(jí)模型進(jìn)行語(yǔ)音合成的方法以及裝置。
【背景技術(shù)】
[0002] 語(yǔ)音合成，又稱文語(yǔ)轉(zhuǎn)換技術(shù)，是一種能夠?qū)⑽淖中畔⑥D(zhuǎn)化為語(yǔ)音并進(jìn)行朗讀的技術(shù)。在語(yǔ)音合成系統(tǒng)中，由于韻律層級(jí)預(yù)測(cè)是整個(gè)系統(tǒng)的基礎(chǔ)，因此，如何提高語(yǔ)音合成的效果關(guān)鍵在于如何提高韻律層級(jí)預(yù)測(cè)的準(zhǔn)確性。
[0003] 相關(guān)技術(shù)中，韻律層級(jí)預(yù)測(cè)的方法主要有以下兩種：
[0004] 第一種，韻律層級(jí)預(yù)測(cè)通常采用CRF(ConditionalRandomField，條件隨機(jī)場(chǎng)）模型進(jìn)行預(yù)測(cè)，即基于CRF的韻律層級(jí)預(yù)測(cè)方法為了在模型中引入上下文信息，需要對(duì)訓(xùn)練的特征進(jìn)行左右擴(kuò)展，并且引入人工編寫的特征模板對(duì)韻律層級(jí)模型進(jìn)行訓(xùn)練。此外，由于韻律層級(jí)結(jié)構(gòu)具有一定的包含關(guān)系，傳統(tǒng)基于CRF的韻律預(yù)測(cè)方法首先分別訓(xùn)練得到韻律詞模型、韻律短語(yǔ)模型以及語(yǔ)調(diào)短語(yǔ)模型，然后采用逐級(jí)預(yù)測(cè)的方式對(duì)文本的韻律結(jié)構(gòu)進(jìn) 行預(yù)測(cè)；
[0005] 第二種，韻律層級(jí)預(yù)測(cè)使用的模型是基于詞粒度的基礎(chǔ)上進(jìn)行訓(xùn)練和預(yù)測(cè)的，通過(guò)分詞系統(tǒng)獲得訓(xùn)練或者預(yù)測(cè)文本的分詞結(jié)果，并獲得詞性、詞長(zhǎng)等特征，通過(guò)人工編寫的特征模板生成對(duì)應(yīng)的文本特征來(lái)進(jìn)行訓(xùn)練和預(yù)測(cè)。
[0006] 但是，上述兩種方法主要存在以下問(wèn)題：
[0007] (1)采用特征左右擴(kuò)展的方式雖然能夠在一定程度上引入上下文關(guān)系，但是為了減少模型的規(guī)模和訓(xùn)練的復(fù)雜度，擴(kuò)展的大小往往有限，因而無(wú)法構(gòu)建單詞之間較遠(yuǎn)距離的上下文關(guān)系；
[0008] (2)采用逐級(jí)訓(xùn)練的方式可能會(huì)導(dǎo)致錯(cuò)誤的逐級(jí)傳遞，一旦在前一級(jí)韻律預(yù)測(cè)中出現(xiàn)錯(cuò)誤，這種錯(cuò)誤很容易向下傳遞，造成后續(xù)的預(yù)測(cè)錯(cuò)誤；
[0009] (3)由于韻律預(yù)測(cè)模型的訓(xùn)練和預(yù)測(cè)是基于詞粒度的基礎(chǔ)上進(jìn)行的，韻律預(yù)測(cè)模型的性能依賴于分詞系統(tǒng)的性能，離線語(yǔ)音合成中的分詞系統(tǒng)由于計(jì)算資源和存儲(chǔ)空間的限制，性能低于在線語(yǔ)音合成系統(tǒng)中的分詞系統(tǒng)，從而影響到最終的韻律預(yù)測(cè)性能；
[0010] (4)對(duì)于離線合成系統(tǒng)來(lái)說(shuō)，由于計(jì)算資源及存儲(chǔ)空間有限，對(duì)于模型和資源文件大小要求嚴(yán)格，使用詞粒度的預(yù)測(cè)模型需要依賴的詞典文件詞條數(shù)達(dá)數(shù)十萬(wàn)級(jí)別，對(duì)于存儲(chǔ)空間和計(jì)算資源占用較大。

【發(fā)明內(nèi)容】

[0011] 本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問(wèn)題之一。
[0012] 為此，本發(fā)明的第一個(gè)目的在于提出一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練方法。該方法基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比，有效地減小了條目規(guī)模，同時(shí)減小了模型及資源文件對(duì)于計(jì)算資源和存儲(chǔ)空間的要求，在提高韻律預(yù)測(cè)模型性能的同時(shí)，保證了在嵌入式智能設(shè)備中的可用性。
[0013] 本發(fā)明的第二個(gè)目的在于提出一種語(yǔ)音合成方法。
[0014] 本發(fā)明的第三個(gè)目的在于提出一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練裝置。
[0015] 本發(fā)明的第四個(gè)目的在于提出一種語(yǔ)音合成裝置。
[0016] 為達(dá)上述目的，本發(fā)明第一方面實(shí)施例提出了一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練方法，包括：對(duì)海量無(wú)標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量；根據(jù)所述字向量以及韻律標(biāo)注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本特征及標(biāo)注，其中，所述訓(xùn)練數(shù)據(jù)用于訓(xùn)練所述韻律層級(jí)模型；以及基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò)，根據(jù)所述訓(xùn)練數(shù)據(jù)的文本特征、所述標(biāo)注對(duì)所述韻律層級(jí)模型進(jìn)行訓(xùn)練。
[0017] 本發(fā)明實(shí)施例的用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練方法，可先對(duì)海量無(wú)標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量，之后，可根據(jù)字向量以及韻律標(biāo)注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對(duì) 應(yīng)的文本特征及標(biāo)注，以及基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò)，根據(jù)訓(xùn)練數(shù)據(jù)的文本特征、標(biāo)注對(duì)韻律層級(jí)模型進(jìn)行訓(xùn)練，至少具有以下優(yōu)點(diǎn)：1)利用雙向LSTM的長(zhǎng)短時(shí)記憶功能將文本之間的遠(yuǎn)距離上下文特征引入韻律層級(jí)預(yù)測(cè)，有效解決了傳統(tǒng)采用人工指定特征模板的方式引入上下文的局限性，提升了韻律預(yù)測(cè)模型的性能；2)采用一遍標(biāo)注的方式對(duì)韻律模型的各個(gè)層級(jí)同時(shí)進(jìn)行預(yù)測(cè)，避免了預(yù)測(cè)錯(cuò)誤在不同層級(jí)之間向下傳遞，同時(shí)不同層級(jí)的協(xié)同關(guān)系在訓(xùn)練過(guò)程中得到有效表示；3)使用基于字粒度的文本特征，降低了分詞系統(tǒng)對(duì)于韻律性能的影響因素；4)基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比，有效地減小了條目規(guī)模，同時(shí)減小了模型及資源文件對(duì)于計(jì)算資源和存儲(chǔ)空間的要求，在提高韻律預(yù)測(cè)模型性能的同時(shí)，保證了在嵌入式智能設(shè)備中的可用性。
[0018] 為達(dá)上述目的，本發(fā)明第二方面實(shí)施例提出了一種使用本發(fā)明第一方面實(shí)施例所述的韻律層級(jí)模型進(jìn)行語(yǔ)音合成的方法，包括：獲取待預(yù)測(cè)文本，并提取所述待預(yù)測(cè)文本的文本特征；將所述文本特征輸入所述韻律層級(jí)模型，并根據(jù)所述韻律層級(jí)模型對(duì)所述待預(yù) 測(cè)文本進(jìn)行韻律預(yù)測(cè)；進(jìn)一步對(duì)所述待預(yù)測(cè)文本進(jìn)行聲學(xué)預(yù)測(cè)，以生成聲學(xué)參數(shù)序列；以及根據(jù)所述聲學(xué)參數(shù)序列生成語(yǔ)音合成結(jié)果。
[0019] 本發(fā)明實(shí)施例的語(yǔ)音合成方法，可從待預(yù)測(cè)文本中提取文本特征，并將文本特征輸入韻律層級(jí)模型，根據(jù)韻律層級(jí)模型對(duì)待預(yù)測(cè)文本進(jìn)行韻律預(yù)測(cè)，進(jìn)一步對(duì)待預(yù)測(cè)文本進(jìn)行聲學(xué)預(yù)測(cè)，以生成聲學(xué)參數(shù)序列，以及根據(jù)聲學(xué)參數(shù)序列生成語(yǔ)音合成結(jié)果，即通過(guò)使用基于字粒度的文本特征以及雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練而成的韻律層級(jí)模型，提升了韻律預(yù)測(cè)的準(zhǔn)確性，從而使得韻律停頓更加流暢自然，提升了用戶體驗(yàn)。
[0020] 為達(dá)上述目的，本發(fā)明第三方面實(shí)施例提出了一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練裝置，包括：獲取模塊，用于對(duì)海量無(wú)標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量；生成模塊，用于根據(jù)所述字向量以及韻律標(biāo)注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本特征及標(biāo)注，其中，所述訓(xùn)練數(shù)據(jù)用于訓(xùn)練所述韻律層級(jí)模型；以及訓(xùn)練模塊，用于基于深度神經(jīng)網(wǎng)絡(luò)和雙向 LSTM神經(jīng)網(wǎng)絡(luò)，根據(jù)所述訓(xùn)練數(shù)據(jù)的文本特征、標(biāo)注對(duì)所述韻律層級(jí)模型進(jìn)行訓(xùn)練。
[0021] 本發(fā)明實(shí)施例的用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練裝置，可通過(guò)獲取模塊對(duì)海量無(wú)標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量，生成模塊根據(jù)字向量以及韻律標(biāo)注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本特征及標(biāo)注，訓(xùn)練模炔基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò)，根據(jù)訓(xùn)練數(shù)據(jù)的文本特征、標(biāo)注對(duì)韻律層級(jí)模型進(jìn)行訓(xùn)練，至少具有以下優(yōu)點(diǎn)：1)利用雙向 LSTM的長(zhǎng)短時(shí)記憶功能將文本之間的遠(yuǎn)距離上下文特征引入韻律層級(jí)預(yù)測(cè)，有效解決了傳統(tǒng)采用人工指定特征模板的方式引入上下文的局限性，提升了韻律預(yù)測(cè)模型的性能；2)采用一遍標(biāo)注的方式對(duì)韻律模型的各個(gè)層級(jí)同時(shí)進(jìn)行預(yù)測(cè)，避免了預(yù)測(cè)錯(cuò)誤在不同層級(jí)之間向下傳遞，同時(shí)不同層級(jí)的協(xié)同關(guān)系在訓(xùn)練過(guò)程中得到有效表示；3)使用基于字粒度的文本特征，降低了分詞系統(tǒng)對(duì)于韻律性能的影響因素；4)基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比，有效地減小了條目規(guī)模，同時(shí)減小了模型及資源文件對(duì)于計(jì)算資源和存儲(chǔ)空間的要求，在提高韻律預(yù)測(cè)模型性能的同時(shí)，保證了在嵌入式智能設(shè)備中的可用性。
[0022] 為達(dá)上述目的，本發(fā)明第四方面實(shí)施例提出了一種使用本發(fā)明第三方面實(shí)施例所述的韻律層級(jí)模型進(jìn)行語(yǔ)音合成的裝置，包括：提取模塊，用于獲取待預(yù)測(cè)文本，并提取所述待預(yù)測(cè)文本的文本特征；第一預(yù)測(cè)模塊，用于將所述文本特征輸入所述韻律層級(jí)模型，并根據(jù)所述韻律層級(jí)模型對(duì)所述待預(yù)測(cè)文本進(jìn)行韻律預(yù)測(cè)；第二預(yù)測(cè)模塊，用于進(jìn)一步對(duì)所述待預(yù)測(cè)文本進(jìn)行聲學(xué)預(yù)測(cè)，以生成聲學(xué)參數(shù)序列；以及生成模塊，用于根據(jù)所述聲學(xué)參數(shù) 序列生成語(yǔ)音合成結(jié)果。
[0023] 本發(fā)明實(shí)施例的語(yǔ)音合成裝置，可通過(guò)提取模塊從待預(yù)測(cè)文本中提取文本特征，第一預(yù)測(cè)模塊將文本特征輸

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐揚(yáng)凱;李秀林;付曉寅;陳志杰;
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司;
我是此專利的發(fā)明人

上一篇：哼唱旋律到midi旋律的轉(zhuǎn)換方法
上一篇：一種球面聲波轉(zhuǎn)成柱面聲波的聲學(xué)波導(dǎo)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

韻律層級(jí)模型訓(xùn)練方法、語(yǔ)音合成方法及裝置的制造方法