韻律層級(jí)模型訓(xùn)練方法、語(yǔ)音合成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語(yǔ)音技術(shù)領(lǐng)域,尤其涉及一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練方 法、使用該韻律層級(jí)模型進(jìn)行語(yǔ)音合成的方法以及裝置。
【背景技術(shù)】
[0002] 語(yǔ)音合成,又稱文語(yǔ)轉(zhuǎn)換技術(shù),是一種能夠?qū)⑽淖中畔⑥D(zhuǎn)化為語(yǔ)音并進(jìn)行朗讀的 技術(shù)。在語(yǔ)音合成系統(tǒng)中,由于韻律層級(jí)預(yù)測(cè)是整個(gè)系統(tǒng)的基礎(chǔ),因此,如何提高語(yǔ)音合成 的效果關(guān)鍵在于如何提高韻律層級(jí)預(yù)測(cè)的準(zhǔn)確性。
[0003] 相關(guān)技術(shù)中,韻律層級(jí)預(yù)測(cè)的方法主要有以下兩種:
[0004] 第一種,韻律層級(jí)預(yù)測(cè)通常采用CRF(ConditionalRandomField,條件隨機(jī)場(chǎng))模 型進(jìn)行預(yù)測(cè),即基于CRF的韻律層級(jí)預(yù)測(cè)方法為了在模型中引入上下文信息,需要對(duì)訓(xùn)練 的特征進(jìn)行左右擴(kuò)展,并且引入人工編寫的特征模板對(duì)韻律層級(jí)模型進(jìn)行訓(xùn)練。此外,由于 韻律層級(jí)結(jié)構(gòu)具有一定的包含關(guān)系,傳統(tǒng)基于CRF的韻律預(yù)測(cè)方法首先分別訓(xùn)練得到韻律 詞模型、韻律短語(yǔ)模型以及語(yǔ)調(diào)短語(yǔ)模型,然后采用逐級(jí)預(yù)測(cè)的方式對(duì)文本的韻律結(jié)構(gòu)進(jìn) 行預(yù)測(cè);
[0005] 第二種,韻律層級(jí)預(yù)測(cè)使用的模型是基于詞粒度的基礎(chǔ)上進(jìn)行訓(xùn)練和預(yù)測(cè)的,通 過(guò)分詞系統(tǒng)獲得訓(xùn)練或者預(yù)測(cè)文本的分詞結(jié)果,并獲得詞性、詞長(zhǎng)等特征,通過(guò)人工編寫的 特征模板生成對(duì)應(yīng)的文本特征來(lái)進(jìn)行訓(xùn)練和預(yù)測(cè)。
[0006] 但是,上述兩種方法主要存在以下問(wèn)題:
[0007] (1)采用特征左右擴(kuò)展的方式雖然能夠在一定程度上引入上下文關(guān)系,但是為了 減少模型的規(guī)模和訓(xùn)練的復(fù)雜度,擴(kuò)展的大小往往有限,因而無(wú)法構(gòu)建單詞之間較遠(yuǎn)距離 的上下文關(guān)系;
[0008] (2)采用逐級(jí)訓(xùn)練的方式可能會(huì)導(dǎo)致錯(cuò)誤的逐級(jí)傳遞,一旦在前一級(jí)韻律預(yù)測(cè)中 出現(xiàn)錯(cuò)誤,這種錯(cuò)誤很容易向下傳遞,造成后續(xù)的預(yù)測(cè)錯(cuò)誤;
[0009] (3)由于韻律預(yù)測(cè)模型的訓(xùn)練和預(yù)測(cè)是基于詞粒度的基礎(chǔ)上進(jìn)行的,韻律預(yù)測(cè)模 型的性能依賴于分詞系統(tǒng)的性能,離線語(yǔ)音合成中的分詞系統(tǒng)由于計(jì)算資源和存儲(chǔ)空間的 限制,性能低于在線語(yǔ)音合成系統(tǒng)中的分詞系統(tǒng),從而影響到最終的韻律預(yù)測(cè)性能;
[0010] (4)對(duì)于離線合成系統(tǒng)來(lái)說(shuō),由于計(jì)算資源及存儲(chǔ)空間有限,對(duì)于模型和資源文件 大小要求嚴(yán)格,使用詞粒度的預(yù)測(cè)模型需要依賴的詞典文件詞條數(shù)達(dá)數(shù)十萬(wàn)級(jí)別,對(duì)于存 儲(chǔ)空間和計(jì)算資源占用較大。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明的目的旨在至少在一定程度上解決上述的技術(shù)問(wèn)題之一。
[0012] 為此,本發(fā)明的第一個(gè)目的在于提出一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練方 法。該方法基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比,有效地減小了條目規(guī)模,同 時(shí)減小了模型及資源文件對(duì)于計(jì)算資源和存儲(chǔ)空間的要求,在提高韻律預(yù)測(cè)模型性能的同 時(shí),保證了在嵌入式智能設(shè)備中的可用性。
[0013] 本發(fā)明的第二個(gè)目的在于提出一種語(yǔ)音合成方法。
[0014] 本發(fā)明的第三個(gè)目的在于提出一種用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練裝置。
[0015] 本發(fā)明的第四個(gè)目的在于提出一種語(yǔ)音合成裝置。
[0016] 為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種用于語(yǔ)音合成的韻律層級(jí)模型 訓(xùn)練方法,包括:對(duì)海量無(wú)標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量;根據(jù)所述字向量以 及韻律標(biāo)注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本特征及標(biāo)注,其中,所述訓(xùn)練數(shù)據(jù)用于訓(xùn)練所述 韻律層級(jí)模型;以及基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò),根據(jù)所述訓(xùn)練數(shù)據(jù)的文本特 征、所述標(biāo)注對(duì)所述韻律層級(jí)模型進(jìn)行訓(xùn)練。
[0017] 本發(fā)明實(shí)施例的用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練方法,可先對(duì)海量無(wú)標(biāo)注語(yǔ)料 數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量,之后,可根據(jù)字向量以及韻律標(biāo)注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對(duì) 應(yīng)的文本特征及標(biāo)注,以及基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò),根據(jù)訓(xùn)練數(shù)據(jù)的文本 特征、標(biāo)注對(duì)韻律層級(jí)模型進(jìn)行訓(xùn)練,至少具有以下優(yōu)點(diǎn):1)利用雙向LSTM的長(zhǎng)短時(shí)記憶 功能將文本之間的遠(yuǎn)距離上下文特征引入韻律層級(jí)預(yù)測(cè),有效解決了傳統(tǒng)采用人工指定特 征模板的方式引入上下文的局限性,提升了韻律預(yù)測(cè)模型的性能;2)采用一遍標(biāo)注的方式 對(duì)韻律模型的各個(gè)層級(jí)同時(shí)進(jìn)行預(yù)測(cè),避免了預(yù)測(cè)錯(cuò)誤在不同層級(jí)之間向下傳遞,同時(shí)不 同層級(jí)的協(xié)同關(guān)系在訓(xùn)練過(guò)程中得到有效表示;3)使用基于字粒度的文本特征,降低了分 詞系統(tǒng)對(duì)于韻律性能的影響因素;4)基于字粒度的字典較傳統(tǒng)使用的詞粒度的詞典相比, 有效地減小了條目規(guī)模,同時(shí)減小了模型及資源文件對(duì)于計(jì)算資源和存儲(chǔ)空間的要求,在 提高韻律預(yù)測(cè)模型性能的同時(shí),保證了在嵌入式智能設(shè)備中的可用性。
[0018] 為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種使用本發(fā)明第一方面實(shí)施例所 述的韻律層級(jí)模型進(jìn)行語(yǔ)音合成的方法,包括:獲取待預(yù)測(cè)文本,并提取所述待預(yù)測(cè)文本的 文本特征;將所述文本特征輸入所述韻律層級(jí)模型,并根據(jù)所述韻律層級(jí)模型對(duì)所述待預(yù) 測(cè)文本進(jìn)行韻律預(yù)測(cè);進(jìn)一步對(duì)所述待預(yù)測(cè)文本進(jìn)行聲學(xué)預(yù)測(cè),以生成聲學(xué)參數(shù)序列;以 及根據(jù)所述聲學(xué)參數(shù)序列生成語(yǔ)音合成結(jié)果。
[0019] 本發(fā)明實(shí)施例的語(yǔ)音合成方法,可從待預(yù)測(cè)文本中提取文本特征,并將文本特征 輸入韻律層級(jí)模型,根據(jù)韻律層級(jí)模型對(duì)待預(yù)測(cè)文本進(jìn)行韻律預(yù)測(cè),進(jìn)一步對(duì)待預(yù)測(cè)文本 進(jìn)行聲學(xué)預(yù)測(cè),以生成聲學(xué)參數(shù)序列,以及根據(jù)聲學(xué)參數(shù)序列生成語(yǔ)音合成結(jié)果,即通過(guò)使 用基于字粒度的文本特征以及雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練而成的韻律層級(jí)模型,提升了韻律 預(yù)測(cè)的準(zhǔn)確性,從而使得韻律停頓更加流暢自然,提升了用戶體驗(yàn)。
[0020] 為達(dá)上述目的,本發(fā)明第三方面實(shí)施例提出了一種用于語(yǔ)音合成的韻律層級(jí)模型 訓(xùn)練裝置,包括:獲取模塊,用于對(duì)海量無(wú)標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量;生成 模塊,用于根據(jù)所述字向量以及韻律標(biāo)注數(shù)據(jù)獲取訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本特征及標(biāo)注,其中, 所述訓(xùn)練數(shù)據(jù)用于訓(xùn)練所述韻律層級(jí)模型;以及訓(xùn)練模塊,用于基于深度神經(jīng)網(wǎng)絡(luò)和雙向 LSTM神經(jīng)網(wǎng)絡(luò),根據(jù)所述訓(xùn)練數(shù)據(jù)的文本特征、標(biāo)注對(duì)所述韻律層級(jí)模型進(jìn)行訓(xùn)練。
[0021] 本發(fā)明實(shí)施例的用于語(yǔ)音合成的韻律層級(jí)模型訓(xùn)練裝置,可通過(guò)獲取模塊對(duì)海量 無(wú)標(biāo)注語(yǔ)料數(shù)據(jù)進(jìn)行訓(xùn)練獲得單字的字向量,生成模塊根據(jù)字向量以及韻律標(biāo)注數(shù)據(jù)獲取 訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的文本特征及標(biāo)注,訓(xùn)練模炔基于深度神經(jīng)網(wǎng)絡(luò)和雙向LSTM神經(jīng)網(wǎng)絡(luò),根 據(jù)訓(xùn)練數(shù)據(jù)的文本特征、標(biāo)注對(duì)韻律層級(jí)模型進(jìn)行訓(xùn)練,至少具有以下優(yōu)點(diǎn):1)利用雙向 LSTM的長(zhǎng)短時(shí)記憶功能將文本之間的遠(yuǎn)距離上下文特征引入韻律層級(jí)預(yù)測(cè),有效解決了傳 統(tǒng)采用人工指定特征模板的方式引入上下文的局限性,提升了韻律預(yù)測(cè)模型的性能;2)采 用一遍標(biāo)注的方式對(duì)韻律模型的各個(gè)層級(jí)同時(shí)進(jìn)行預(yù)測(cè),避免了預(yù)測(cè)錯(cuò)誤在不同層級(jí)之間 向下傳遞,同時(shí)不同層級(jí)的協(xié)同關(guān)系在訓(xùn)練過(guò)程中得到有效表示;3)使用基于字粒度的文 本特征,降低了分詞系統(tǒng)對(duì)于韻律性能的影響因素;4)基于字粒度的字典較傳統(tǒng)使用的詞 粒度的詞典相比,有效地減小了條目規(guī)模,同時(shí)減小了模型及資源文件對(duì)于計(jì)算資源和存 儲(chǔ)空間的要求,在提高韻律預(yù)測(cè)模型性能的同時(shí),保證了在嵌入式智能設(shè)備中的可用性。
[0022] 為達(dá)上述目的,本發(fā)明第四方面實(shí)施例提出了一種使用本發(fā)明第三方面實(shí)施例所 述的韻律層級(jí)模型進(jìn)行語(yǔ)音合成的裝置,包括:提取模塊,用于獲取待預(yù)測(cè)文本,并提取所 述待預(yù)測(cè)文本的文本特征;第一預(yù)測(cè)模塊,用于將所述文本特征輸入所述韻律層級(jí)模型,并 根據(jù)所述韻律層級(jí)模型對(duì)所述待預(yù)測(cè)文本進(jìn)行韻律預(yù)測(cè);第二預(yù)測(cè)模塊,用于進(jìn)一步對(duì)所 述待預(yù)測(cè)文本進(jìn)行聲學(xué)預(yù)測(cè),以生成聲學(xué)參數(shù)序列;以及生成模塊,用于根據(jù)所述聲學(xué)參數(shù) 序列生成語(yǔ)音合成結(jié)果。
[0023] 本發(fā)明實(shí)施例的語(yǔ)音合成裝置,可通過(guò)提取模塊從待預(yù)測(cè)文本中提取文本特征, 第一預(yù)測(cè)模塊將文本特征輸