本發(fā)明涉及語音技術(shù)領(lǐng)域,特別是涉及一種統(tǒng)計(jì)參數(shù)模型建立方法和裝置、語音合成方法和裝置。
背景技術(shù):
tts(texttospeech,文本到語音)系統(tǒng)由前端和后端兩個(gè)模塊構(gòu)成,用于將一段文本內(nèi)容通過一系列的分析和建模后轉(zhuǎn)換為可以播放和存儲的語音文件。前端主要是對文本內(nèi)容進(jìn)行處理,將文本內(nèi)容轉(zhuǎn)換成不同形式的中間表達(dá)狀態(tài),用于指導(dǎo)后端模型將文本內(nèi)容轉(zhuǎn)換成對應(yīng)的語音。后端模塊的其中一類為統(tǒng)計(jì)參數(shù)模型,統(tǒng)計(jì)參數(shù)模型是指通過對發(fā)聲機(jī)理的模式進(jìn)行建模的一種模型。
傳統(tǒng)技術(shù)中的統(tǒng)計(jì)參數(shù)模型需要從語音中提取與發(fā)聲關(guān)系最密切的基頻、發(fā)聲時(shí)長以及頻譜特征等特征后,對提取到的語音特征進(jìn)行建模,在語音合成的過程中,傳統(tǒng)技術(shù)中的統(tǒng)計(jì)參數(shù)模型也是首先合成預(yù)測的基頻、發(fā)聲時(shí)長以及頻譜特征,然后通過后端信號處理模塊將獲取的語音特征重新融合為語音波形。但是傳統(tǒng)技術(shù)的參數(shù)統(tǒng)計(jì)模型在對特征進(jìn)行提取時(shí),需要對原始語音進(jìn)行變換,在對語音進(jìn)行變換的過程中容易造成信息的損失,而信息的損失讓合成的音色不夠飽滿、有明顯機(jī)器音等缺陷。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要針對上述問題,提供一種能夠提高合成語音的飽和度和自然度的統(tǒng)計(jì)參數(shù)模型建立方法和裝置、語音合成方法和裝置。
一種統(tǒng)計(jì)參數(shù)模型建立方法,所述方法包括:
獲取模型訓(xùn)練數(shù)據(jù),所述模型訓(xùn)練數(shù)據(jù)包括文本特征序列和對應(yīng)的原始語音樣本序列;
將所述文本特征樣本序列中的文本特征樣本點(diǎn)與原始語音樣本序列中的語音樣本點(diǎn)匹配形成的原始向量矩陣輸入統(tǒng)計(jì)參數(shù)模型訓(xùn)練;
將所述原始向量矩陣在隱層中進(jìn)行非線性映射計(jì)算,輸出對應(yīng)的預(yù)測語音樣本點(diǎn);
根據(jù)所述預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)采用差距最小原則確定所述統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。
一種統(tǒng)計(jì)參數(shù)模型建立裝置,所述裝置包括:
獲取模塊,用于獲取模型訓(xùn)練數(shù)據(jù),所述模型訓(xùn)練數(shù)據(jù)包括文本特征序列和對應(yīng)的原始語音樣本序列;
訓(xùn)練模塊,用于將所述文本特征樣本序列中的文本特征樣本點(diǎn)與原始語音樣本序列中的語音樣本點(diǎn)匹配形成的原始向量矩陣輸入統(tǒng)計(jì)參數(shù)模型訓(xùn)練;
樣本點(diǎn)預(yù)測模塊,用于將所述原始向量矩陣在隱層中進(jìn)行非線性映射計(jì)算,輸出對應(yīng)的預(yù)測語音樣本點(diǎn);
模型建立模塊,用于根據(jù)所述預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)采用差距最小原則確定所述統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。
上述統(tǒng)計(jì)參數(shù)模型建立方法和裝置,通過將訓(xùn)練數(shù)據(jù)中的文本特征序列中的文本特征樣本點(diǎn)與原始語音樣本序列中的語音樣本點(diǎn)匹配形成的原始向量矩陣進(jìn)行統(tǒng)計(jì)參數(shù)模型訓(xùn)練,將原始向量矩陣在隱層中進(jìn)行非線性映射計(jì)算,得到對應(yīng)的預(yù)測語音樣本點(diǎn),將預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)相比較,采用差距最小原則確定統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。通過直接對文本特征序列進(jìn)行采樣獲取文本特征樣本點(diǎn),直接對文本特征樣本點(diǎn)與語音特征樣本點(diǎn)進(jìn)行建模,不需要進(jìn)行語音特征提取,最大程度上避免了語音在特征提取的過程中造成的原始信息的丟失,提高了統(tǒng)計(jì)參數(shù)模型合成語音的飽和度和自然度。
一種語音合成方法,所述方法包括:
獲取待轉(zhuǎn)換文本信息;
對所述待轉(zhuǎn)換文本信息進(jìn)行處理得到對應(yīng)的文本特征序列;
獲取初始化語音樣本點(diǎn)與所述文本特征序列中的部分文本特征樣本點(diǎn)匹配形成初始化向量矩陣;
將所述初始化向量矩陣輸入上述任意實(shí)施例中的所述目標(biāo)統(tǒng)計(jì)參數(shù)模型中,得到所述文本特征序列對應(yīng)的預(yù)測語音樣本點(diǎn)序列;
根據(jù)所述預(yù)測語音樣本點(diǎn)序列輸出所述待轉(zhuǎn)換文本信息對應(yīng)的合成語音。
一種語音合成裝置,所述裝置包括:
文本獲取模塊,用于獲取待轉(zhuǎn)換文本信息;
文本處理模塊,用于對所述待轉(zhuǎn)換文本信息進(jìn)行處理得到對應(yīng)的文本特征序列;
初始化模塊,用于獲取初始化語音樣本點(diǎn)與所述文本特征序列中的部分文本特征樣本點(diǎn)匹配形成初始化向量矩陣;
預(yù)測樣本點(diǎn)序列獲取模塊,用于將所述初始化向量矩陣輸入上述任意實(shí)施例中所述目標(biāo)統(tǒng)計(jì)參數(shù)模型中,得到所述文本特征序列對應(yīng)的預(yù)測語音樣本點(diǎn)序列;
語音合成模塊,用于根據(jù)所述預(yù)測語音樣本點(diǎn)序列輸出所述待轉(zhuǎn)換文本信息對應(yīng)的合成語音。
上述語音合成方法和裝置,通過對待轉(zhuǎn)換成語音的文本信息進(jìn)行處理獲取對應(yīng)的文本特征序列,對文本特征序列進(jìn)行采樣獲取對應(yīng)的文本特征序列樣本點(diǎn),將獲取的文本特征樣本點(diǎn)中的其中一部分文本特征樣本點(diǎn)與初始化語音序列匹配形成初始化向量矩陣,將初始化向量矩陣輸入根據(jù)文本序列樣本點(diǎn)與原始語音樣本點(diǎn)建立的目標(biāo)統(tǒng)計(jì)參數(shù)模型得到預(yù)測語音樣本點(diǎn)序列,并根據(jù)預(yù)測語音樣本點(diǎn)序列輸出待轉(zhuǎn)換文本信息對應(yīng)的合成語音。通過對待轉(zhuǎn)換成語音信息的文本信息直接進(jìn)行采樣,然后將文本特征樣本點(diǎn)序列與初始化語音輸入建立的目標(biāo)統(tǒng)計(jì)模型得到預(yù)測語音樣本點(diǎn)序列,不需要對待轉(zhuǎn)換的文本信息進(jìn)行特征提取,最大程度上避免了語音在特征提取的過程中造成的原始信息的丟失,并且直接輸出預(yù)測語音樣本點(diǎn),不需要任何后端的聲碼器模塊,提高了合成語音的自然度和飽和度。
附圖說明
圖1為一個(gè)實(shí)施例中統(tǒng)計(jì)參數(shù)模型建立方法和語音合成方法應(yīng)用環(huán)境圖;
圖2為圖1中服務(wù)器的內(nèi)部結(jié)構(gòu)圖;
圖3為一個(gè)實(shí)施例中統(tǒng)計(jì)參數(shù)模型建立方法的流程圖;
圖4為一個(gè)實(shí)施例中獲取預(yù)測語音樣本點(diǎn)的步驟的流程圖;
圖5為另一個(gè)實(shí)施例中獲取下一層隱層節(jié)點(diǎn)序列的步驟的流程圖;
圖6為另一個(gè)實(shí)施例中統(tǒng)計(jì)參數(shù)模型建立方法的流程圖;
圖7為一個(gè)實(shí)施例中獲取預(yù)測樣本點(diǎn)的方法原理示意圖;
圖8為一個(gè)實(shí)施例中統(tǒng)計(jì)參數(shù)模型建立方法中非線性映射的原理示意圖;
圖9為一個(gè)實(shí)施例中語音合成方法的流程圖;
圖10為一個(gè)實(shí)施例中獲取文本特征序列的步驟的流程圖;
圖11為一個(gè)實(shí)施例中獲取預(yù)測語音樣本點(diǎn)序列的步驟的流程圖;
圖12為另一個(gè)實(shí)施例中語音合成方法的流程圖;
圖13為一個(gè)實(shí)施例中獲取文本特征序列的步驟的示意圖;
圖14為一個(gè)實(shí)施例中根據(jù)統(tǒng)計(jì)參數(shù)模型獲取合成語音的原理簡圖;
圖15為一個(gè)實(shí)施例中獲取預(yù)測語音樣本點(diǎn)序列的步驟的原理示意圖;
圖16為一個(gè)實(shí)施例中統(tǒng)計(jì)參數(shù)模型建立裝置的結(jié)構(gòu)框圖;
圖17為一個(gè)實(shí)施例中樣本點(diǎn)預(yù)測模塊的結(jié)構(gòu)框圖;
圖18為一個(gè)實(shí)施例中樣本點(diǎn)預(yù)測單元的結(jié)構(gòu)框圖;
圖19為一個(gè)實(shí)施例中語音合成裝置的結(jié)構(gòu)框圖;
圖20為一個(gè)實(shí)施例中文本處理模塊的結(jié)構(gòu)框圖;
圖21為一個(gè)實(shí)施例中預(yù)測樣本點(diǎn)序列獲取模塊的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
圖1為一個(gè)實(shí)施例中統(tǒng)計(jì)參數(shù)模型建立方法的應(yīng)用環(huán)境圖。如圖1所示,該應(yīng)用環(huán)境包括終端110和服務(wù)器120,其中終端110和服務(wù)器120可通過網(wǎng)絡(luò)進(jìn)行通信。終端110向服務(wù)器120發(fā)送訓(xùn)練數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)包括文本特征序列和與文本特征序列對應(yīng)的原始語音樣本點(diǎn)序列,服務(wù)器120根據(jù)接收到的訓(xùn)練數(shù)據(jù)對統(tǒng)計(jì)參數(shù)模型進(jìn)行訓(xùn)練,并將訓(xùn)練結(jié)果與接收到的原始語音樣本點(diǎn)序列進(jìn)行比較,從而不斷調(diào)整優(yōu)化統(tǒng)計(jì)參數(shù)模型的模型參數(shù),確定統(tǒng)計(jì)參數(shù)模型的模型參數(shù)從而得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型,并存儲在服務(wù)器120中。其中,終端110可以是但不僅限于是智能手機(jī)、平板電腦、筆記本電腦、穿戴設(shè)備等。
在一個(gè)實(shí)施例中圖1的應(yīng)用環(huán)境圖還可以應(yīng)用于語音合成方法。終端110將需要轉(zhuǎn)換成語音的待轉(zhuǎn)換文本信息發(fā)送至服務(wù)器120,服務(wù)器120對接收到的待轉(zhuǎn)換文本信息進(jìn)行處理,得到對應(yīng)的文本特征序列,并對獲取的文本特征序列進(jìn)行采樣獲取對應(yīng)的文本特征樣本點(diǎn)序列,對語音樣本點(diǎn)序列進(jìn)行初始化,將初始化語音樣本點(diǎn)與部分文本特征樣本點(diǎn)生成向量矩陣輸入建立的目標(biāo)統(tǒng)計(jì)參數(shù)模型獲取對應(yīng)的預(yù)測語音樣本點(diǎn)序列,生成待轉(zhuǎn)換文本信息對應(yīng)的合成語音發(fā)送至終端110,終端110根據(jù)接收到的合成語音進(jìn)行播放。其中,終端110可以是但不僅限于是智能手機(jī)、平板電腦、筆記本電腦、穿戴設(shè)備等。
圖2為一個(gè)實(shí)施例中圖1中的服務(wù)器的內(nèi)部結(jié)構(gòu)示意圖。如圖2所示,該服務(wù)器包括通過系統(tǒng)總線連接的處理器、非易失性存儲介質(zhì)、內(nèi)存儲器和網(wǎng)絡(luò)接口。其中,該服務(wù)器的非易失性存儲介質(zhì)存儲有操作系統(tǒng)、數(shù)據(jù)庫和一種統(tǒng)計(jì)參數(shù)模型建立裝置和/或一種語音合成裝置,數(shù)據(jù)庫中存儲有訓(xùn)練數(shù)據(jù)和模型參數(shù)數(shù)據(jù),其中統(tǒng)計(jì)參數(shù)模型建立裝置用于實(shí)現(xiàn)適用于服務(wù)器的一種統(tǒng)計(jì)參數(shù)模型建立方法,語音合成裝置用戶實(shí)現(xiàn)適用于服務(wù)器的一種語音合成方法。該服務(wù)器的處理器用于提供計(jì)算和控制能力,支撐整個(gè)服務(wù)器的運(yùn)行。該服務(wù)器的內(nèi)存儲器為非易失性存儲介質(zhì)中的統(tǒng)計(jì)參數(shù)模型建立裝置或者語音合成裝置的運(yùn)行提供環(huán)境,該內(nèi)存儲器中可儲存有計(jì)算機(jī)可讀指令,該計(jì)算機(jī)可讀指令被所述處理器執(zhí)行時(shí),可使得所述處理器執(zhí)行一種統(tǒng)計(jì)參數(shù)模型建立方法或者一種語音合成方法。該服務(wù)器的網(wǎng)絡(luò)接口用于據(jù)以與外部的終端通過網(wǎng)絡(luò)連接通信,比如接收終端發(fā)送的將文本信息轉(zhuǎn)換為語音信息的請求以及向終端返回輸出的合成語音等。服務(wù)器可以用獨(dú)立的服務(wù)器或者是多個(gè)服務(wù)器組成的服務(wù)器集群來實(shí)現(xiàn)。本領(lǐng)域技術(shù)人員可以理解,圖2中示出的結(jié)構(gòu),僅僅是與本申請方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對本申請方案所應(yīng)用于其上的服務(wù)器的限定,具體的服務(wù)器可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
如圖3所示,在一個(gè)實(shí)施例中,提供一種統(tǒng)計(jì)參數(shù)模型建立方法,包括如下內(nèi)容:
步驟s310,獲取模型訓(xùn)練數(shù)據(jù),模型訓(xùn)練數(shù)據(jù)包括文本特征序列和對應(yīng)的原始語音樣本序列。
具體地,模型訓(xùn)練數(shù)據(jù)是指用于對統(tǒng)計(jì)參數(shù)模型進(jìn)行訓(xùn)練以確定模型參數(shù)的數(shù)據(jù),包括文本特征序列和對應(yīng)的原始語音樣本點(diǎn)序列。文本特征序列是指需要轉(zhuǎn)換成語音的文本信息經(jīng)過前期處理后得到的能夠指導(dǎo)發(fā)聲的文本特征序列,可由能夠指導(dǎo)發(fā)聲的文本特征進(jìn)行編碼生成。原始語音樣本序列是指由原始語音樣本點(diǎn)組成的序列,用來結(jié)合文本特征序列通過統(tǒng)計(jì)參數(shù)模型獲取預(yù)設(shè)語音樣本點(diǎn),并與得到的預(yù)測語音樣本序列相比較,調(diào)整統(tǒng)計(jì)參數(shù)模型的參數(shù)。
步驟s320,將文本特征樣本序列中的文本特征樣本點(diǎn)與原始語音樣本序列中的語音樣本點(diǎn)匹配形成的原始向量矩陣輸入統(tǒng)計(jì)參數(shù)模型訓(xùn)練。
具體地,文本特征樣本序列即由多個(gè)文本特征樣本點(diǎn)構(gòu)成的序列,文本特征樣本序列中的文本特征樣本點(diǎn)與原始語音樣本點(diǎn)序列中的樣本點(diǎn)一一對應(yīng),將文本特征樣本點(diǎn)與原始語音樣本點(diǎn)匹配形成向量對,將向量對組成形成原始向量矩陣輸入統(tǒng)計(jì)參數(shù)模型,對統(tǒng)計(jì)參數(shù)模型進(jìn)行訓(xùn)練。
步驟s330,將原始向量矩陣在隱層中進(jìn)行非線性映射計(jì)算,輸出對應(yīng)的預(yù)測語音樣本點(diǎn)。
具體地,統(tǒng)計(jì)參數(shù)模型中包括不同數(shù)目的隱層,隱層是神經(jīng)網(wǎng)絡(luò)建模中的一種術(shù)語,是相對于輸入層和輸出層的中間層,能夠在建模中提供更好的非線性建模能力,而非線性建模能力越強(qiáng),統(tǒng)計(jì)參數(shù)模型輸出的語音更貼近真實(shí)人聲。進(jìn)一步,隱層的數(shù)目取值不固定,能夠根據(jù)不同的訓(xùn)練數(shù)據(jù)和應(yīng)用場景進(jìn)行調(diào)整和優(yōu)化,一般取值在32-512之間。
將獲取的原始向量矩陣輸入統(tǒng)計(jì)參數(shù)模型后,原始向量矩陣在隱層中逐層參與非線性映射計(jì)算,首先根據(jù)原始向量矩陣獲取對應(yīng)的輸入層節(jié)點(diǎn)序列,然后對輸入層節(jié)點(diǎn)序列進(jìn)行非線性映射計(jì)算輸出第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,第一隱層節(jié)點(diǎn)序列作為第一隱層的輸入,在第一隱層進(jìn)行非線性映射計(jì)算輸出第二隱層對應(yīng)的隱層節(jié)點(diǎn)序列,以此類推,最終在輸出層得到原始向量矩陣對應(yīng)的預(yù)測語音樣本點(diǎn)。每一隱層對應(yīng)的非線性映射的參數(shù)均可不同,每一隱層的采樣間隔也可不同,從而可調(diào)整每一隱層對應(yīng)的非線性映射參數(shù)和采樣間隔,通過間隔采樣以及非線性映射計(jì)算,得到精確的預(yù)測語音樣本點(diǎn)。其中原始向量矩陣中包括文本特征樣本點(diǎn)與原始語音樣本點(diǎn),文本特征樣本點(diǎn)在進(jìn)行非線性映射計(jì)算時(shí)使用的非線性映射參數(shù)可與原始語音樣本點(diǎn)在進(jìn)行非線性映射時(shí)使用的非線性映射參數(shù)不同。
步驟s340,根據(jù)預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)采用差距最小原則確定統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。
具體地,預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)是當(dāng)前原始語音樣本序列中最后一個(gè)原始語音樣本點(diǎn)的下一個(gè)原始語音樣本點(diǎn)。利用bp(backpropagation,反向傳播)梯度下降算法,將預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)相比較,對于原始語音樣本點(diǎn)序列{xt-l,xt-l+1,...xt-1}進(jìn)行預(yù)測得到預(yù)測語音樣本點(diǎn){ot|xt-l,xt-l+1,...xt-1},通過對比原始語音樣本點(diǎn)序列的下一個(gè)樣本點(diǎn)xt與預(yù)測語音{ot|xt-l,xt-l+1,…xt-1}之間的差異,通過更新模型參數(shù)縮小xt與ot之間的差距,不斷優(yōu)化統(tǒng)計(jì)參數(shù)模型的模型參數(shù),采用差距最小化原則確定使xt與ot之間差距最小的模型參數(shù),得到目標(biāo)統(tǒng)計(jì)參數(shù)模型。
本實(shí)施例中,統(tǒng)計(jì)參數(shù)模型建立方法,通過將訓(xùn)練數(shù)據(jù)中的文本特征序列中的文本特征樣本點(diǎn)與原始語音樣本序列中的語音樣本點(diǎn)匹配形成的原始向量矩陣進(jìn)行統(tǒng)計(jì)參數(shù)模型訓(xùn)練,將原始向量矩陣在隱層中進(jìn)行非線性映射計(jì)算,得到對應(yīng)的預(yù)測語音樣本點(diǎn),將預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)相比較,采用差距最小原則確定統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。通過直接對文本特征序列進(jìn)行采樣獲取文本特征樣本點(diǎn),直接對文本特征樣本點(diǎn)與語音特征樣本點(diǎn)進(jìn)行建模,不需要進(jìn)行語音特征提取,最大程度上避免了語音在特征提取的過程中造成的原始信息的丟失,提高了統(tǒng)計(jì)參數(shù)模型合成語音的飽和度和自然度。
如圖4所示,在一個(gè)實(shí)施例中,步驟s330包括:
步驟s331,根據(jù)原始向量矩陣得到輸入層節(jié)點(diǎn)序列,將輸入層節(jié)點(diǎn)序列進(jìn)行非線性映射得到第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,將第一隱層作為當(dāng)前處理隱層。
具體地,輸入層節(jié)點(diǎn)序列為原始向量矩陣本身形成的序列或由原始向量矩陣進(jìn)行補(bǔ)充樣本點(diǎn)形成的序列。輸入層輸入的是原始語音采樣點(diǎn),一般為一秒鐘16000個(gè)采樣點(diǎn),將文本特征樣本點(diǎn)序列與原始語音樣本點(diǎn)序列組成原始向量矩陣,輸入統(tǒng)計(jì)參數(shù)模型,統(tǒng)計(jì)參數(shù)模型的輸入層對原始向量矩陣進(jìn)行非線性映射計(jì)算得到第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,將第一隱層作為當(dāng)前處理隱層,對獲取的隱層節(jié)點(diǎn)序列進(jìn)行非線性映射處理。
步驟s332,獲取當(dāng)前處理隱層對應(yīng)的當(dāng)前隱層節(jié)點(diǎn)序列,根據(jù)當(dāng)前處理隱層采樣間隔對當(dāng)前隱層節(jié)點(diǎn)序列進(jìn)行采樣和非線性映射得到下一層隱層節(jié)點(diǎn)序列,其中當(dāng)前處理隱層的下一層隱層采樣間隔為當(dāng)前處理隱層采樣間隔的倍數(shù)。
具體地,從第一隱層開始逐漸進(jìn)行處理得到各個(gè)隱層對應(yīng)的隱層節(jié)點(diǎn)序列,將第一隱層作為當(dāng)前處理隱層時(shí),獲取第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,對第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列按照第一采樣間隔進(jìn)行采樣,并對間隔采樣獲取到的樣本點(diǎn)進(jìn)行第一非線性映射得到第二隱層對應(yīng)的節(jié)點(diǎn)序列,即第二隱層中的輸入是第一隱層的輸出,然后將第二隱層作為當(dāng)前處理隱層,對第二隱層對應(yīng)的節(jié)點(diǎn)序列按照第二采樣間隔進(jìn)行采樣,并將間隔采樣獲取到的樣本點(diǎn)進(jìn)行第二非線性映射得到第三隱層對應(yīng)的節(jié)點(diǎn)序列,依次類推,通過對當(dāng)前隱層對應(yīng)的節(jié)點(diǎn)序列按照一定的采樣間隔進(jìn)行采樣并將采樣獲取的樣本點(diǎn)進(jìn)行非線性映射得到下一層隱層對應(yīng)的樣本點(diǎn)序列,其中每一隱層對應(yīng)的非線性映射的參數(shù)均可不同,且采樣間隔能夠根據(jù)訓(xùn)練數(shù)據(jù)和隱層總層數(shù)進(jìn)行調(diào)整,每一個(gè)隱層的采樣間隔不同,且當(dāng)前處理隱層的下一層隱層采樣間隔為當(dāng)前處理隱層采樣間隔的倍數(shù),如2倍,當(dāng)前處理隱層的下一層隱層采樣間隔為當(dāng)前處理隱層采樣間隔的倍數(shù)便于快速計(jì)算。
步驟s333,將當(dāng)前處理隱層的下一層隱層作為當(dāng)前處理隱層,判斷當(dāng)前處理隱層數(shù)是否達(dá)到最大隱層數(shù),若是,則得到第一預(yù)測語音樣本點(diǎn),若否,則執(zhí)行步驟s332。
具體地,使用不同的隱層對根據(jù)原始向量矩陣獲取的隱層節(jié)點(diǎn)序列進(jìn)行處理,獲取下一層隱層對應(yīng)的隱層節(jié)點(diǎn)序列,將下一層隱層作為當(dāng)前處理隱層,通過判斷當(dāng)前處理隱層是否為最后一層隱層來判斷是否結(jié)束使用隱層進(jìn)行間隔采樣以及非線性映射的過程,若當(dāng)前處理隱層對應(yīng)的層數(shù)不是最大隱層數(shù),則繼續(xù)對當(dāng)前隱層進(jìn)行處理獲取下一層隱層對應(yīng)的隱層節(jié)點(diǎn)序列,若當(dāng)前處理隱層對應(yīng)的層數(shù)是最大隱層數(shù)則通過對最大隱層數(shù)對應(yīng)的隱層節(jié)點(diǎn)序列進(jìn)行間隔采樣以及非線性映射計(jì)算,能夠得到第一預(yù)測語音樣本點(diǎn)。
進(jìn)一步,可以通過同樣的方法對同一組訓(xùn)練數(shù)據(jù)的不同的語音樣本點(diǎn)進(jìn)行預(yù)測或者對不同的訓(xùn)練數(shù)據(jù)對應(yīng)的樣本點(diǎn)進(jìn)行預(yù)測,然后利用多組匹配的預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)進(jìn)行多組比較,通過比較多組預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)采用多組差距最小和原則,進(jìn)一步優(yōu)化調(diào)整統(tǒng)計(jì)參數(shù)模型的模型參數(shù)。
本實(shí)施例中,通過統(tǒng)計(jì)參數(shù)模型中的輸入層對原始向量矩陣的非線性映射得到第一隱層對應(yīng)的節(jié)點(diǎn)序列,之后在統(tǒng)計(jì)參數(shù)模型的隱層中,逐層對該層對應(yīng)的節(jié)點(diǎn)序列按照一定的采樣間隔進(jìn)行采樣,并將采樣之后的樣本點(diǎn)進(jìn)行非線性映射計(jì)算后得到下一層隱層對應(yīng)的序列,通過逐漸增加的采樣間隔以及不同的非線性映射得到輸入的文本特征樣本點(diǎn)序列對應(yīng)的預(yù)測語音樣本點(diǎn)。通過逐層采樣與非線性映射,將當(dāng)前隱層的輸出作為當(dāng)前隱層的下一個(gè)隱層的輸入,使得當(dāng)前的預(yù)測樣本點(diǎn)的取值如t時(shí)刻的輸出,除了依賴于當(dāng)前的輸入即t時(shí)刻的輸入,還依賴于過去一段時(shí)間的累積輸入如(t-k,t-k+1,…,t-1)時(shí)刻的輸入,因此采用隱層逐層增大采樣間隔的方式進(jìn)行處理,可以讓參數(shù)統(tǒng)計(jì)模型記住更多過去時(shí)間的輸入,依賴于過去的輸入和當(dāng)前的輸入,模型可以保留更多的信息,預(yù)測出更準(zhǔn)確的樣本點(diǎn)。
如圖5所示,在一個(gè)實(shí)施例中,根據(jù)當(dāng)前處理隱層采樣間隔對當(dāng)前隱層節(jié)點(diǎn)序列進(jìn)行采樣和非線性映射得到下一層隱層節(jié)點(diǎn)序列的步驟,包括:
步驟s332a,將當(dāng)前隱層節(jié)點(diǎn)序列進(jìn)行采樣后進(jìn)行第一線性卷積運(yùn)算得到第一處理結(jié)果。
具體地,當(dāng)統(tǒng)計(jì)參數(shù)模型中的其中一個(gè)隱層作為當(dāng)前處理隱層對數(shù)據(jù)進(jìn)行處理時(shí),當(dāng)前處理隱層獲取對應(yīng)的當(dāng)前隱層節(jié)點(diǎn)序列,并將當(dāng)前隱層節(jié)點(diǎn)序列按照一定的采樣間隔進(jìn)行采樣,然后將采樣獲取的采樣結(jié)果進(jìn)行第一線性卷積運(yùn)算得到第一處理結(jié)果。
步驟s332b,獲取非線性映射函數(shù)集合,將第一處理結(jié)果分別采用非線性映射函數(shù)集合中的非線性映射函數(shù)進(jìn)行非線性映射得到非線性映射結(jié)果集合。
具體地,對數(shù)據(jù)進(jìn)行非線性函數(shù)運(yùn)算能夠提高統(tǒng)計(jì)參數(shù)模型合成語音的飽和度和自然度。因此,在獲取第一線性卷積運(yùn)算得到第一處理結(jié)果后,進(jìn)一步地,獲取預(yù)設(shè)非線性映射函數(shù)集合,并將第一處理結(jié)果分別使用非線性映射函數(shù)集合中的非線性映射函數(shù)進(jìn)行非線性映射,得到非線性映射結(jié)果集合。其中非線性映射函數(shù)集合中的非線性映射函數(shù)的個(gè)數(shù)和具體運(yùn)算公式可根據(jù)需要自定義。
步驟s332c,將非線性映射結(jié)果集合中的各個(gè)非線性映射結(jié)果相加,再進(jìn)行第二線性卷積運(yùn)算得到下一層隱層節(jié)點(diǎn)序列。
具體地,為了進(jìn)一步增加參數(shù)統(tǒng)計(jì)模型對復(fù)雜數(shù)據(jù)的擬合成功,獲取非線性映射結(jié)果集合,并將非線性映射結(jié)果集合中的各個(gè)非線性映射結(jié)果相加,相加之后進(jìn)行第二線性卷積運(yùn)算后輸出,作為下一層隱層節(jié)點(diǎn)序列。其中第一線性卷積運(yùn)算與第二線性卷積運(yùn)算為參數(shù)不同的線性卷積運(yùn)算。
本實(shí)施例中,通過對隱層節(jié)點(diǎn)序列進(jìn)行第一線性卷積運(yùn)算獲取第一處理結(jié)果,之后對第一處理結(jié)果進(jìn)行不同的非線性映射并將非線性映射結(jié)果向量相加,然后進(jìn)行第二線性卷積運(yùn)算,從而得到下一層隱層節(jié)點(diǎn)序列。通過兩次不同的線性卷積運(yùn)算和多個(gè)非線性映射求和,提高了統(tǒng)計(jì)參數(shù)模型的復(fù)雜數(shù)據(jù)的擬合能力。
在一個(gè)實(shí)施例中,獲取非線性映射函數(shù)集合,將第一處理結(jié)果分別采用非線性映射函數(shù)集合中的非線性映射函數(shù)進(jìn)行非線性映射得到非線性映射結(jié)果集合的步驟,包括:
獲取非線性映射函數(shù)集合,將第一處理結(jié)果分別采用非線性映射函數(shù)集合中tanh函數(shù)和sigmoid函數(shù)進(jìn)行非線性映射得到非線性映射結(jié)果集合。
具體地,非線性映射函數(shù)集合中包括多個(gè)不同的非線性映射函數(shù),對數(shù)據(jù)進(jìn)行不同的非線性映射處理。這里,使用非線性映射函數(shù)集合中的tanh函數(shù)和sigmoid函數(shù)對第一處理結(jié)果進(jìn)行處理,得到非線性映射結(jié)果集合。其中,tanh函數(shù)為雙曲正切函數(shù),函數(shù)圖像為過原點(diǎn)并且穿越ⅰ、ⅲ象限的嚴(yán)格單調(diào)遞增曲線,其圖像被限制在兩水平漸近線y=1和y=-1之間。sigmoid函數(shù)為一種s型函數(shù),由于其單增以及反函數(shù)單增等性質(zhì),sigmoid函數(shù)常被用作神經(jīng)網(wǎng)絡(luò)的閾值函數(shù),將變量映射到0-1之間。
在一個(gè)實(shí)施例中,根據(jù)原始向量矩陣得到輸入層節(jié)點(diǎn)序列,將輸入層節(jié)點(diǎn)序列進(jìn)行非線性映射得到第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,將所述第一隱層作為當(dāng)前處理隱層的步驟,包括:
獲取補(bǔ)充文本特征樣本點(diǎn)和對應(yīng)的補(bǔ)充語音樣本點(diǎn),匹配加入原始向量矩陣得到補(bǔ)充向量矩陣,根據(jù)補(bǔ)充向量矩陣得到輸入層節(jié)點(diǎn)序列,將輸入層節(jié)點(diǎn)序列進(jìn)行非線性映射得到第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,將所述第一隱層作為當(dāng)前處理隱層;進(jìn)入獲取當(dāng)前處理隱層對應(yīng)的當(dāng)前隱層節(jié)點(diǎn)序列的步驟,得到第二預(yù)測語音樣本點(diǎn);
根據(jù)預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)差距最小原則確定統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型的步驟包括:
根據(jù)第一預(yù)測語音樣本點(diǎn)與對應(yīng)的第一原始語音樣本點(diǎn)、第二預(yù)測語音樣本點(diǎn)與對應(yīng)的第二原始語音樣本點(diǎn)采用差距最小原則確定統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。
具體地,一段語音通常由靜音開始,可將靜音對應(yīng)的文本特征樣本點(diǎn)和語音樣本點(diǎn)作為補(bǔ)充文本特征樣本點(diǎn),和對應(yīng)的補(bǔ)充語音樣本點(diǎn),匹配加入原始向量矩陣得到補(bǔ)充向量矩陣,根據(jù)補(bǔ)充向量矩陣得到輸入層節(jié)點(diǎn)序列,對輸入層節(jié)點(diǎn)序列進(jìn)行非線性映射得到第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,并將第一隱層作為當(dāng)前處理隱層,按照對原始向量矩陣的處理方式對補(bǔ)充向量矩陣進(jìn)行處理,獲取補(bǔ)充向量矩陣對應(yīng)的第二預(yù)測語音樣本點(diǎn)。
進(jìn)一步地,將根據(jù)原始向量矩陣得到的第一預(yù)測語音樣本點(diǎn)與對應(yīng)的第一原始語音樣本點(diǎn)、將根據(jù)補(bǔ)充向量矩陣得到的第二預(yù)測語音樣本點(diǎn)與對應(yīng)的第二原始語音樣本點(diǎn)分別進(jìn)行比較,確定使兩組預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)均差距最小的參數(shù)作為統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。
本實(shí)施例中,通過補(bǔ)充文本特征樣本點(diǎn)和對應(yīng)的補(bǔ)充語音樣本點(diǎn),匹配生成補(bǔ)充向量矩陣,從而對統(tǒng)計(jì)參數(shù)模型進(jìn)行訓(xùn)練獲取第二預(yù)測樣本點(diǎn),通過將兩個(gè)預(yù)測樣本點(diǎn)分別與對應(yīng)的原始語音樣本點(diǎn)進(jìn)行比較,提高了統(tǒng)計(jì)參數(shù)模型的模型參數(shù)的準(zhǔn)確性。進(jìn)一步,也可以通過該方式,再次補(bǔ)充文本特征樣本點(diǎn)和對應(yīng)的補(bǔ)充語音樣本點(diǎn),獲取多個(gè)預(yù)測語音樣本點(diǎn),以提高模型參數(shù)的準(zhǔn)確性,從而提高合成語音的自然度。
如圖6所示,在一個(gè)具體的實(shí)施例中,提供一種統(tǒng)計(jì)參數(shù)模型建立方法,包括如下內(nèi)容:
步驟s610,獲取模型訓(xùn)練數(shù)據(jù),模型訓(xùn)練數(shù)據(jù)包括文本特征序列和對應(yīng)的原始語音樣本序列。
步驟s620,將文本特征樣本序列中的文本特征樣本點(diǎn)與原始語音樣本序列中的語音樣本點(diǎn)匹配形成的原始向量矩陣輸入統(tǒng)計(jì)參數(shù)模型訓(xùn)練。
步驟s630,根據(jù)原始向量矩陣得到輸入層節(jié)點(diǎn)序列,將輸入層節(jié)點(diǎn)序列進(jìn)行非線性映射得到第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,將第一隱層作為當(dāng)前處理隱層。
步驟s640,將當(dāng)前隱層節(jié)點(diǎn)序列采用預(yù)設(shè)采樣間隔進(jìn)行非線性映射計(jì)算得到下一層隱層對應(yīng)的隱層節(jié)點(diǎn)序列。
具體地,對輸入層或隱層中的樣本點(diǎn)采用不同的采樣間隔進(jìn)行非線性映射運(yùn)算得到一個(gè)對應(yīng)的樣本點(diǎn),當(dāng)前隱層的下一層隱層的采樣間隔是當(dāng)前隱層采樣間隔的倍數(shù)。如圖7所示,對于輸入層節(jié)點(diǎn)序列701進(jìn)行采樣,將輸入層節(jié)點(diǎn)序列710中的全部的節(jié)點(diǎn)進(jìn)行非線性映射得到第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列702。對第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列702中的樣本點(diǎn)進(jìn)行采樣,采樣間隔為輸入層節(jié)點(diǎn)序列采樣間隔的2倍,每隔兩個(gè)點(diǎn)選取一個(gè)隱層節(jié)點(diǎn)進(jìn)行非線性映射得到對應(yīng)的一個(gè)樣本點(diǎn),從而得到第二隱層對應(yīng)的隱層節(jié)點(diǎn)序列703。以此類推,隨著隱層數(shù)目的增加依次成倍增大隱層對應(yīng)的隱層節(jié)點(diǎn)序列的采樣間隔,直至隱層數(shù)目為最大隱層數(shù)目,對最大隱層數(shù)目中的隱層節(jié)點(diǎn)序列按照上述規(guī)則進(jìn)行采樣,得到一個(gè)對應(yīng)的樣本點(diǎn),該樣本點(diǎn)即為輸入的語音樣本點(diǎn)序列對應(yīng)的預(yù)測語音樣本點(diǎn),如圖7所示的,對第三隱層對應(yīng)的隱層節(jié)點(diǎn)序列704進(jìn)行采樣得到預(yù)測語音樣本點(diǎn)705。
進(jìn)一步的,需要說明的是,在對統(tǒng)計(jì)參數(shù)模型進(jìn)行訓(xùn)練獲取預(yù)測語音樣本點(diǎn)的過程中,輸入的文本特征序列和原始語音樣本序列均經(jīng)過統(tǒng)計(jì)參數(shù)模型進(jìn)行非線性映射,且文本特征序列與原始語音樣本序列使用的非線性映射對應(yīng)的參數(shù)不同,文本特征序列用于指導(dǎo)統(tǒng)計(jì)參數(shù)模型生成預(yù)測語音樣本點(diǎn),改變文本特征序列對應(yīng)的統(tǒng)計(jì)參數(shù)模型的參數(shù)或者原始語音樣本序列對應(yīng)的統(tǒng)計(jì)參數(shù)模型中的參數(shù)均會對預(yù)測語音樣本點(diǎn)結(jié)果造成影響。
進(jìn)一步地,對文本特征樣本序列中的文本特征樣本點(diǎn)與原始語音樣本序列中的語音樣本點(diǎn)匹配形成的原始向量矩陣進(jìn)行非線性映射,如圖8所示,提供了一種統(tǒng)計(jì)參數(shù)模型中對文本特征樣本點(diǎn)和語音樣本點(diǎn)的非線性映射過程,針對不同的隱層獲取預(yù)設(shè)數(shù)量的采樣點(diǎn)進(jìn)行1*1卷積核運(yùn)算,得到第一處理結(jié)果,然后對第一處理結(jié)果分別進(jìn)行tanh函數(shù)與sigmoid函數(shù)進(jìn)行非線性映射,并將非線性映射結(jié)果相加,并將相加結(jié)果進(jìn)行1*1卷積核運(yùn)算得到下一層對應(yīng)的隱層節(jié)點(diǎn)序列中的一個(gè)隱層節(jié)點(diǎn),多個(gè)隱層節(jié)點(diǎn)構(gòu)成隱層節(jié)點(diǎn)序列。其中兩次1*1卷積核運(yùn)算中對應(yīng)的參數(shù)不同,即是不同的卷積核運(yùn)算。
步驟s650,將當(dāng)前處理隱層的下一層隱層作為當(dāng)前處理隱層,判斷當(dāng)前處理隱層是否為層數(shù)最大的隱層,若是,則執(zhí)行步驟s660,若否,則跳轉(zhuǎn)至步驟s640。
具體地,統(tǒng)計(jì)參數(shù)模型中包括多個(gè)隱層,當(dāng)輸入原始向量矩陣,利用原始語音樣本點(diǎn)序列和文本特征序列得到預(yù)測語音樣本點(diǎn)時(shí),經(jīng)過多層隱層運(yùn)算,為了判斷是否輸出預(yù)測語音樣本點(diǎn),對隱層數(shù)目進(jìn)行判斷,若當(dāng)前隱層的數(shù)目為最大隱層數(shù)目時(shí),說明對當(dāng)前隱層對應(yīng)的隱層節(jié)點(diǎn)序列進(jìn)行采樣即可獲取對應(yīng)的預(yù)測語音樣本點(diǎn),若當(dāng)前隱層不是最大隱層則得到的樣本點(diǎn)位下一層隱層對應(yīng)的節(jié)點(diǎn),因此當(dāng)獲取當(dāng)前隱層對應(yīng)的節(jié)點(diǎn)序列后,首先判斷當(dāng)前隱層是否為層數(shù)最大的隱層,若是,則執(zhí)行步驟s660,若否,則跳轉(zhuǎn)至步驟s640。
步驟s660,輸出對應(yīng)的預(yù)測語音樣本點(diǎn)。
具體地,當(dāng)判斷當(dāng)前處理隱層的層數(shù)為最大隱層層數(shù)時(shí),對最大隱層層數(shù)的隱層對應(yīng)的隱層節(jié)點(diǎn)序列進(jìn)行間隔采樣和非線性映射,得到輸入的向量矩陣對應(yīng)的預(yù)測語音樣本點(diǎn),輸出對應(yīng)的預(yù)測語音樣本點(diǎn)。
步驟s670,獲取補(bǔ)充文本特征樣本點(diǎn)和對應(yīng)的補(bǔ)充語音樣本點(diǎn),匹配加入原始向量矩陣得到補(bǔ)充向量矩陣,將補(bǔ)充向量矩陣作為輸入層節(jié)點(diǎn)序列,將輸入層節(jié)點(diǎn)序列進(jìn)行非線性映射得到第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,將第一隱層作為當(dāng)前處理隱層,執(zhí)行步驟s640。
具體地,如圖7所示的示意圖中,為輸入的原始語音向量矩陣對應(yīng)的預(yù)測的語音樣本點(diǎn),而建立統(tǒng)計(jì)參數(shù)模型需要將預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)相比較,因此,或只獲取一個(gè)對應(yīng)的語音樣本點(diǎn)可以造成對應(yīng)的統(tǒng)計(jì)參數(shù)模型的模型參數(shù)不準(zhǔn)確,根據(jù)圖7可以看出,若想獲取到當(dāng)前預(yù)測樣本點(diǎn)的前一個(gè)預(yù)測樣本點(diǎn),需要在輸入層節(jié)點(diǎn)序列中添加輸入節(jié)點(diǎn),而在一段語音中,通常包括靜音部分,因此在輸入層節(jié)點(diǎn)序列701前添加補(bǔ)充文本特征樣本點(diǎn)和對應(yīng)的補(bǔ)充語音樣本點(diǎn),生成新的輸入層節(jié)點(diǎn)序列701。補(bǔ)充文本特征樣本點(diǎn)能夠根據(jù)實(shí)際需求不斷的加入原來的向量矩陣生成新的補(bǔ)充向量矩陣,然后從步驟s640開始對補(bǔ)充向量矩陣進(jìn)行處理,從而獲取更多的預(yù)測語音樣本點(diǎn)與原始語音樣本點(diǎn)相比較,提高模型參數(shù)的準(zhǔn)確性。
步驟s680,將輸出的預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)采用差距最小原則確定統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。
具體地,將獲取的一個(gè)或多個(gè)預(yù)測語音樣本點(diǎn)分別與對應(yīng)的原始語音樣本點(diǎn)相比較,不斷調(diào)整統(tǒng)計(jì)參數(shù)模型的模型參數(shù),確定能夠使一組或多組預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)差距最小的模型參數(shù),從而得到對應(yīng)的目標(biāo)統(tǒng)計(jì)模型。
如圖9所示,在一個(gè)實(shí)施例中,提供一種語音合成方法,包括以下內(nèi)容:
步驟s910,獲取待轉(zhuǎn)換文本信息。
具體地,待轉(zhuǎn)換文本信息是指待轉(zhuǎn)換為語音的文本信息,獲取的待轉(zhuǎn)換文本信息可以是終端輸入的文本信息,通過安裝的文本到語音的功能應(yīng)用,將文本信息發(fā)送至服務(wù)器進(jìn)行轉(zhuǎn)換,也可以是其他能夠?qū)崿F(xiàn)文本到語音轉(zhuǎn)換的硬件設(shè)備發(fā)送的文本信息。
步驟s920,對待轉(zhuǎn)換文本信息進(jìn)行處理得到對應(yīng)的文本特征序列。
具體地,獲取到待轉(zhuǎn)換文本信息后,文本對語音系統(tǒng)中的前端模塊對待轉(zhuǎn)換文本信息進(jìn)行分析處理,將原始輸入的待轉(zhuǎn)換文本信息轉(zhuǎn)換為不同的中間狀態(tài)信息,用于指導(dǎo)文本進(jìn)行發(fā)聲,將各個(gè)中間狀態(tài)信息生成對應(yīng)的文本特征序列。
步驟s930,獲取初始化語音樣本點(diǎn)與文本特征序列中的部分文本特征樣本點(diǎn)匹配形成初始化向量矩陣。
具體地,對獲取的文本特征序列進(jìn)行采樣得到文本特征樣本點(diǎn)序列,由于在對統(tǒng)計(jì)參數(shù)模型進(jìn)行訓(xùn)練的過程中,需要將文本特征樣本點(diǎn)與語音樣本點(diǎn)對應(yīng)生成向量對才能得到預(yù)測語音樣本點(diǎn),因此為了得到預(yù)測語音樣本點(diǎn),需要獲取的文本特征樣本點(diǎn)序列中的部分樣本點(diǎn),并獲取該部分樣本點(diǎn)對應(yīng)的初始化語音樣本點(diǎn),初始化語音樣本點(diǎn)通常認(rèn)為是靜音對應(yīng)的語音樣本點(diǎn)的取值,將獲取的部分文本特征樣本點(diǎn)與初始化語音樣本點(diǎn)形成初始化向量矩陣。
步驟s940,將初始化向量矩陣輸入上述任意一個(gè)實(shí)施例中的目標(biāo)統(tǒng)計(jì)參數(shù)模型中,得到文本特征序列對應(yīng)的預(yù)測語音樣本點(diǎn)序列。
具體地,將生成的初始化向量矩陣輸入任意一個(gè)實(shí)施例中的目標(biāo)統(tǒng)計(jì)參數(shù)模型中,利用目標(biāo)統(tǒng)計(jì)參數(shù)模型對初始化向量矩陣進(jìn)行計(jì)算,得到文本特征序列對應(yīng)的預(yù)測語音樣本點(diǎn),不斷補(bǔ)充文本特征樣本點(diǎn)和對應(yīng)的語音樣本點(diǎn)至初始化向量矩陣,不斷的獲取預(yù)測語音樣本點(diǎn),最終將得到的預(yù)測語音樣本點(diǎn)組合生成對應(yīng)的預(yù)測語音樣本點(diǎn)序列。
步驟s950,根據(jù)預(yù)測語音樣本點(diǎn)序列輸出待轉(zhuǎn)換文本信息對應(yīng)的合成語音。
具體地,獲取到由預(yù)測語音樣本點(diǎn)組成的預(yù)測語音樣本點(diǎn)序列后,相當(dāng)于得到輸出語音的多個(gè)采樣點(diǎn),通過圖像數(shù)據(jù)處理能夠獲取對應(yīng)的輸出語音的波形,從而輸出待轉(zhuǎn)換文本信息對應(yīng)的合成語音。
如圖10所示,在一個(gè)實(shí)施例中,步驟s920包括:
步驟s920a,對待轉(zhuǎn)換文本信息中的段落進(jìn)行語句切分、分詞處理,得到第一文本特征序列。
具體地,文本到語音系統(tǒng)獲取到待轉(zhuǎn)換文本信息后首先進(jìn)行文本規(guī)整,也就是將非漢字轉(zhuǎn)化成標(biāo)準(zhǔn)漢語文字。然后對規(guī)整后的待轉(zhuǎn)換文本信息進(jìn)行不同的處理獲取對應(yīng)的文本特征序列。如首先為了方便讀取文本信息中的內(nèi)容,將待轉(zhuǎn)換文本信息中的段落進(jìn)行語句切分,即將段落分成相應(yīng)的語句,然后對語句進(jìn)行分詞,將對應(yīng)的詞語組合在一起,并根據(jù)上下文關(guān)系確定分詞之間存在的不同停頓間隔進(jìn)行標(biāo)注,得到第一文本特征序列。
步驟s920b,對待轉(zhuǎn)換文本信息進(jìn)行分詞和詞性標(biāo)注處理,得到第二文本特征序列。
具體地,對獲取的待轉(zhuǎn)換文本信息進(jìn)行分詞處理后,對分詞后的單詞或者單個(gè)字進(jìn)行詞性標(biāo)注,如注明對應(yīng)的分詞為名詞、動詞或形容詞中的一種,得到第二文本特征序列。
步驟s920c,將待轉(zhuǎn)換文本信息進(jìn)行韻律層級預(yù)測處理,并生成讀音,生成讀音過程中進(jìn)行多音字、兒化音、輕聲至少一種處理,得到第三文本特征序列。
具體地,將待轉(zhuǎn)換文本信息進(jìn)行韻律層級預(yù)測,將分詞進(jìn)一步分成韻律詞、韻律短語、語調(diào)短語,其中韻律詞就是綜合了讀音、詞性、停頓等所有信息之后的詞語,韻律短語就是韻律詞組合成的短語;語調(diào)短語指的是通過上下文分析后,表明一個(gè)短語應(yīng)該用陳述句、疑問句或是感嘆句等語調(diào)念出來的短語,根據(jù)韻律層級預(yù)測生成對應(yīng)的讀音,并進(jìn)行讀音中多音字、兒化音、輕聲等讀音現(xiàn)象的至少一種處理,得到第三文本序列。
步驟s920d,根據(jù)第一文本特征序列、第二文本特征序列、第三文本特征序列生成對應(yīng)的文本特征序列。
具體地,通過對待轉(zhuǎn)換文本信息的不同處理獲取到對應(yīng)的第一文本特征序列、第二文本特征序列以及第三文本特征序列,第一文本特征序列、第二文本特征序列以及第三文本特征序列均屬于待轉(zhuǎn)換文本信息的中間狀態(tài)信息,用來指導(dǎo)統(tǒng)計(jì)參數(shù)模型將文本讀取成語音,均需要參與計(jì)算,因此將第一文本特征序列、第二文本特征序列以及第三文本特征序列生成對應(yīng)的文本特征序列,參與統(tǒng)計(jì)參數(shù)模型的運(yùn)算。
如圖11所示,在一個(gè)實(shí)施例中,步驟s940包括:
步驟s940a,將初始化向量矩陣輸入上述任意一個(gè)實(shí)施例中的目標(biāo)統(tǒng)計(jì)參數(shù)模型中,得到第一預(yù)測語音樣本點(diǎn)。
具體地,將初始化向量矩陣輸入上述任意一個(gè)實(shí)施例中的目標(biāo)統(tǒng)計(jì)參數(shù)模型中,根據(jù)初始化向量矩陣以及目標(biāo)統(tǒng)計(jì)參數(shù)模型的模型特點(diǎn),能夠獲取初始化向量矩陣對應(yīng)的第一預(yù)測語音樣本點(diǎn)。
步驟s940b,將第一預(yù)測語音樣本點(diǎn)作為當(dāng)前預(yù)測樣本點(diǎn),從文本特征序列中獲取與當(dāng)前預(yù)測語音樣本點(diǎn)對應(yīng)的目標(biāo)文本特征樣本點(diǎn)匹配形成向量對,并累加至初始化向量矩陣中得到更新向量矩陣。
具體地,為了對后續(xù)文本信息進(jìn)行語音轉(zhuǎn)換,需要補(bǔ)充文本特征序列以及對應(yīng)的語音樣本點(diǎn)序列。而根據(jù)初始化向量矩陣獲取到的第一預(yù)測語音樣本點(diǎn)與文本特征樣本點(diǎn)序列中的其中一個(gè)文本特征樣本點(diǎn)相對應(yīng),將第一預(yù)測樣本點(diǎn)與對應(yīng)的文本特征樣本點(diǎn)匹配形成向量對,并將該向量對累加至初始化向量矩陣中得到更新向量矩陣。
步驟s940c,將更新向量矩陣輸入目標(biāo)統(tǒng)計(jì)參數(shù)模型中,得到第二預(yù)測語音樣本點(diǎn),將第二預(yù)測樣本點(diǎn)作為當(dāng)前預(yù)測樣本點(diǎn),重復(fù)進(jìn)入從文本特征序列中獲取與當(dāng)前預(yù)測語音樣本點(diǎn)對應(yīng)的目標(biāo)文本特征樣本點(diǎn)匹配形成向量對的步驟,直到文本特征序列中的全部文本特征樣本點(diǎn)存在對應(yīng)的預(yù)測語音樣本點(diǎn),預(yù)測語音樣本點(diǎn)組成預(yù)測語音樣本點(diǎn)序列。
具體地,將根據(jù)第一預(yù)測語音樣本點(diǎn)形成的更新向量矩陣輸入目標(biāo)統(tǒng)計(jì)參數(shù)模型進(jìn)行處理計(jì)算,得到第二預(yù)測語音樣本點(diǎn),然后獲取補(bǔ)充文本特征樣本點(diǎn)序列中與第二預(yù)測語音樣本點(diǎn)相對應(yīng)的文本特征樣本點(diǎn)形成向量對,累加至第一預(yù)測語音樣本點(diǎn)對應(yīng)的更新向量矩陣中,形成新的更新向量矩陣,輸入至目標(biāo)統(tǒng)計(jì)參數(shù)模型得到第三預(yù)測語音樣本點(diǎn),依次類推,重復(fù)上述累加過程,直至文本特征樣本點(diǎn)序列中的基本全部文本特征樣本點(diǎn)與預(yù)測語音樣本點(diǎn)相對應(yīng),將各個(gè)預(yù)測語音樣本點(diǎn)組成預(yù)測語音樣本點(diǎn)序列,以獲取對應(yīng)的合成語音。
本實(shí)施例中,通過將預(yù)測語音樣本點(diǎn)累加至初始化語音樣本點(diǎn),并補(bǔ)充文本特征樣本點(diǎn)序列與預(yù)測語音文本匹配并組合成向量對累加至原始向量矩陣,得到對應(yīng)的預(yù)測語音樣本點(diǎn),重復(fù)上述過程,能夠獲取到待轉(zhuǎn)換文本信息對應(yīng)的文本特征樣本點(diǎn)序列對應(yīng)的預(yù)測語音樣本點(diǎn)序列,從而獲取到合成語音,實(shí)現(xiàn)樣本點(diǎn)到樣本點(diǎn)的轉(zhuǎn)換,提高了合成語音輸出的飽和度和自然度。
如圖12所示,在一個(gè)具體的實(shí)施例中,提供一種語音合成方法流程圖,包括以下內(nèi)容:
步驟s1210,獲取待轉(zhuǎn)換文本信息。
步驟s1220,對待轉(zhuǎn)換文本信息進(jìn)行處理得到對應(yīng)的文本特征序列。
具體地,如圖13所示,獲取待轉(zhuǎn)換文本信息,對待轉(zhuǎn)換文本信息進(jìn)行處理,分別獲取得到如第一中間狀態(tài)信息1301、第二中間狀態(tài)信息1302、第三中間狀態(tài)信息1303,對獲取的中間狀態(tài)信息進(jìn)行編碼得到對應(yīng)的文本特征序列。其中第一中間狀態(tài)信息1301對應(yīng)的中間狀態(tài)信息中,#2對應(yīng)的是韻律停頓,表示的是詞與詞之間該停頓多長的時(shí)間,#1對應(yīng)于最短的停頓,人耳一般感受不到這種停頓,但這種停頓對于合成自然的語音來說是重要的。#4對應(yīng)于長停頓,這種長停頓人耳能夠分辨出來。第二中間狀態(tài)信息1302狀態(tài)中的n代表名詞,v代表動詞,不同的標(biāo)注代表不同的詞性。第三中間狀態(tài)信息1303中為文本信息對應(yīng)的拼音,以及拼音對應(yīng)的聲調(diào)。
步驟s1230,獲取初始化語音樣本點(diǎn)與文本特征序列中的部分文本特征樣本點(diǎn)匹配形成初始化向量矩陣。
步驟s1240,將初始化向量矩陣輸入上述任意一個(gè)實(shí)施例中的目標(biāo)統(tǒng)計(jì)參數(shù)模型中,得到第一預(yù)測語音樣本點(diǎn),將第一預(yù)測語音樣本點(diǎn)作為當(dāng)前預(yù)測樣本點(diǎn)。
具體地,將初始化向量矩陣輸入上述任意一個(gè)實(shí)施例中的目標(biāo)統(tǒng)計(jì)參數(shù)模型中,對初始化向量矩陣中的文本特征序列進(jìn)行統(tǒng)計(jì)參數(shù)模型計(jì)算,指導(dǎo)統(tǒng)計(jì)參數(shù)模型對對應(yīng)的文本信息發(fā)聲,同時(shí)將初始化語音樣本點(diǎn)序列進(jìn)行統(tǒng)計(jì)參數(shù)模型計(jì)算,兩者同時(shí)作用得到第一預(yù)測樣本點(diǎn),如圖15中a所示,給出了將初始化向量矩陣輸入目標(biāo)統(tǒng)計(jì)參數(shù)模型后,目標(biāo)統(tǒng)計(jì)參數(shù)模型進(jìn)行非線性映射的過程,經(jīng)過目標(biāo)統(tǒng)計(jì)參數(shù)模型后獲取到第一預(yù)測語音樣本點(diǎn)1501,將第一預(yù)測語音樣本點(diǎn)作為當(dāng)前預(yù)測語音樣本點(diǎn)。
步驟s1250,從文本特征序列中獲取與當(dāng)前預(yù)測語音樣本點(diǎn)對應(yīng)的目標(biāo)文本特征樣本點(diǎn)匹配形成向量對,并累加至初始化向量矩陣中得到更新向量矩陣。
具體地,將獲取的當(dāng)前預(yù)測語音樣本點(diǎn)與對應(yīng)的待轉(zhuǎn)換文本特征序列中的文本特征樣本點(diǎn)匹配成向量對,并累加至初始化向量矩陣中得到更新向量矩陣,如圖15所示,在獲取到第一預(yù)測語音樣本點(diǎn)1501后,將第一預(yù)測語音樣本點(diǎn)1501累加至輸入層樣本序列,形成新的輸入層樣本序列,同時(shí)將與第一預(yù)測語音樣本點(diǎn)1501對應(yīng)的文本特征樣本點(diǎn)輸入目標(biāo)統(tǒng)計(jì)參數(shù)模型參與計(jì)算,指導(dǎo)目標(biāo)統(tǒng)計(jì)參數(shù)模型生成對應(yīng)的語音。
步驟s1260,將更新向量矩陣輸入目標(biāo)統(tǒng)計(jì)參數(shù)模型中,得到對應(yīng)的預(yù)測語音樣本點(diǎn),將對應(yīng)的預(yù)測樣本點(diǎn)作為當(dāng)前預(yù)測樣本點(diǎn)。
具體地,將更新向量矩陣輸入目標(biāo)統(tǒng)計(jì)參數(shù)模型中,目標(biāo)統(tǒng)計(jì)參數(shù)模型按照圖15中b所示,對更新向量矩陣進(jìn)行計(jì)算得到對應(yīng)的預(yù)測語音樣本點(diǎn)1502,將對應(yīng)的預(yù)測語音樣本點(diǎn)為當(dāng)前語音樣本點(diǎn)。
步驟s1270,判斷文本特征序列中的全部文本特征樣本點(diǎn)是否均存在對應(yīng)的預(yù)測語音樣本點(diǎn),若是,則執(zhí)行步驟s1280,若否,則跳轉(zhuǎn)至步驟s1250。
具體地,按照圖15中的a至圖15中的b所示的過程,將獲取的預(yù)測語音樣本點(diǎn)累加至輸入層節(jié)點(diǎn)序列,然后輸入目標(biāo)統(tǒng)計(jì)參數(shù)模型進(jìn)行計(jì)算獲取對應(yīng)的預(yù)測語音樣本點(diǎn),為了獲取到對應(yīng)的合成語音對輸入的文本特征樣本點(diǎn)獲取對應(yīng)的預(yù)測語音樣本點(diǎn),因此,在獲取的對應(yīng)的預(yù)測語音樣本點(diǎn),并根據(jù)預(yù)測語音樣本點(diǎn)匹配對應(yīng)的待轉(zhuǎn)換文本序列中的文本特征樣本點(diǎn)后,判斷文本特征序列中的全部文本特征樣本點(diǎn)是否均存在對應(yīng)的預(yù)測語音樣本點(diǎn),若是,則說明輸入的文本特征序列全部轉(zhuǎn)換為對應(yīng)的預(yù)測語音樣本點(diǎn),如圖15中的c所示,當(dāng)獲取到預(yù)測語音樣本點(diǎn)1503并將其累加至輸入層樣本序列后,輸入層樣本序列再次進(jìn)入目標(biāo)統(tǒng)計(jì)參數(shù)模型參與計(jì)算的樣本點(diǎn)全部變?yōu)轭A(yù)測語音樣本點(diǎn),此時(shí)執(zhí)行步驟s1280,若不是,如圖15中c所示的狀態(tài),則返回步驟s1250。
步驟s1280,將得到的預(yù)測語音樣本點(diǎn)合成對應(yīng)的預(yù)測語音樣本點(diǎn)序列,根據(jù)預(yù)測語音樣本點(diǎn)序列輸出待轉(zhuǎn)換文本信息對應(yīng)的合成語音。
具體地,當(dāng)獲取到待轉(zhuǎn)換文本信息對應(yīng)的預(yù)測語音樣本點(diǎn)序列后,根據(jù)圖像處理獲取預(yù)測語音樣本點(diǎn)對應(yīng)的語音波形,輸出對應(yīng)的合成語音。
如圖14所示,給出了統(tǒng)計(jì)參數(shù)模型建立以及根據(jù)目標(biāo)統(tǒng)計(jì)參數(shù)模型將輸入的文本信息獲取到對應(yīng)的合成語音的過程。首先通過包括文本信息和對應(yīng)的語音信息的訓(xùn)練數(shù)據(jù)對統(tǒng)計(jì)參數(shù)模型進(jìn)行訓(xùn)練,得到上述任意一個(gè)實(shí)施例中的目標(biāo)統(tǒng)計(jì)參數(shù)模型,建立目標(biāo)統(tǒng)計(jì)參數(shù)模型后,輸入待轉(zhuǎn)換文本信息,對待轉(zhuǎn)換文本信息首先經(jīng)過如圖13所示的處理過程,得到對應(yīng)的文本中間狀態(tài)信息,對中間狀態(tài)信息進(jìn)行編碼獲取文本特征序列,目標(biāo)統(tǒng)計(jì)參數(shù)模型獲取經(jīng)過文本分析得到的文本特征序列,根據(jù)獲取的文本特征序列結(jié)合自身參數(shù)獲取合成語音。在實(shí)際測試中,通過10小時(shí)左右將文本特征序列和對應(yīng)的男性語音樣本序列作為訓(xùn)練數(shù)據(jù)進(jìn)行基于統(tǒng)計(jì)參數(shù)模型的文本到語音(tts)系統(tǒng)的訓(xùn)練結(jié)果,并與傳統(tǒng)的基于聲碼器的隱馬爾科夫模型+決策樹的tts系統(tǒng)和基于深度模型的tts系統(tǒng)的合成音質(zhì)對比,基于統(tǒng)計(jì)參數(shù)模型的方案輸出的合成語音更接近人聲,同時(shí)也優(yōu)于基于拼接合成模型的tts系統(tǒng)的音質(zhì)。
如圖16所示,在一個(gè)實(shí)施例中,提供一種統(tǒng)計(jì)參數(shù)模型建立裝置,包括:
獲取模塊1610,用于獲取模型訓(xùn)練數(shù)據(jù),模型訓(xùn)練數(shù)據(jù)包括文本特征序列和對應(yīng)的原始語音樣本序列.
訓(xùn)練模塊1620,用于將文本特征樣本序列中的文本特征樣本點(diǎn)與原始語音樣本序列中的語音樣本點(diǎn)匹配形成的原始向量矩陣輸入統(tǒng)計(jì)參數(shù)模型訓(xùn)練。
樣本點(diǎn)預(yù)測模塊1630,用于將原始向量矩陣在隱層中進(jìn)行非線性映射計(jì)算,輸出對應(yīng)的預(yù)測語音樣本點(diǎn)。
模型建立模塊1640,用于根據(jù)預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)采用差距最小原則確定統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。
本實(shí)施例中,統(tǒng)計(jì)參數(shù)模型建立裝置,通過將訓(xùn)練數(shù)據(jù)中的文本特征序列中的文本特征樣本點(diǎn)與原始語音樣本序列中的語音樣本點(diǎn)匹配形成的原始向量矩陣進(jìn)行統(tǒng)計(jì)參數(shù)模型訓(xùn)練,將原始向量矩陣在隱層中進(jìn)行非線性映射計(jì)算,得到對應(yīng)的預(yù)測語音樣本點(diǎn),將預(yù)測語音樣本點(diǎn)與對應(yīng)的原始語音樣本點(diǎn)相比較,采用差距最小原則確定統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。通過直接對文本特征序列進(jìn)行采樣獲取文本特征樣本點(diǎn),直接對文本特征樣本點(diǎn)與語音特征樣本點(diǎn)進(jìn)行建模,不需要進(jìn)行語音特征提取,最大程度上避免了語音在特征提取的過程中造成的原始信息的丟失,提高了統(tǒng)計(jì)參數(shù)模型合成語音的飽和度和自然度。
如圖17所示,在一個(gè)實(shí)施例中,樣本點(diǎn)預(yù)測模塊1630包括:
隱層節(jié)點(diǎn)序列獲取單元1631,用于根據(jù)原始向量矩陣得到輸入層節(jié)點(diǎn)序列,將輸入層節(jié)點(diǎn)序列進(jìn)行非線性映射得到第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,將第一隱層作為當(dāng)前處理隱層。
樣本點(diǎn)預(yù)測單元1632,用于獲取當(dāng)前處理隱層對應(yīng)的當(dāng)前隱層節(jié)點(diǎn)序列,根據(jù)當(dāng)前處理隱層采樣間隔對當(dāng)前隱層節(jié)點(diǎn)序列進(jìn)行采樣和非線性映射得到下一層隱層節(jié)點(diǎn)序列,將當(dāng)前處理隱層的下一層隱層作為當(dāng)前處理隱層,重復(fù)進(jìn)入樣本點(diǎn)預(yù)測單元,直到處理隱層數(shù)到達(dá)最大隱層數(shù)得到第一預(yù)測語音樣本點(diǎn),其中當(dāng)前處理應(yīng)層的下一層隱層采樣間隔是當(dāng)前處理隱層采樣間隔的倍數(shù)。
如圖18所示,在一個(gè)實(shí)施例中,樣本點(diǎn)預(yù)測單元1632包括:
第一卷積單元1632a,用于將當(dāng)前隱層節(jié)點(diǎn)序列進(jìn)行采樣后進(jìn)行第一線性卷積運(yùn)算得到第一處理結(jié)果。
非線性映射單元1632b,用于獲取非線性映射函數(shù)集合,將第一處理結(jié)果分別采用非線性映射函數(shù)集合中的非線性映射函數(shù)進(jìn)行非線性映射得到非線性映射結(jié)果集合。
第二卷積單元1632c,用于將非線性映射結(jié)果集合中的各個(gè)非線性映射結(jié)果相加,再進(jìn)行第二線性卷積運(yùn)算得到下一層隱層節(jié)點(diǎn)序列。
在一個(gè)實(shí)施例中,非線性映射單元1632b還用于獲取非線性映射函數(shù)集合,將第一處理結(jié)果分別采用非線性映射函數(shù)集合中tanh函數(shù)和sigmoid函數(shù)進(jìn)行非線性映射得到非線性映射結(jié)果集合。
在一個(gè)實(shí)施例中,隱層節(jié)點(diǎn)序列獲取單元1631還用于獲取補(bǔ)充文本特征樣本點(diǎn)和對應(yīng)的補(bǔ)充語音樣本點(diǎn),匹配加入原始向量矩陣得到補(bǔ)充向量矩陣,根據(jù)補(bǔ)充向量矩陣得到輸入層節(jié)點(diǎn)序列,將輸入層節(jié)點(diǎn)序列進(jìn)行非線性映射得到第一隱層對應(yīng)的隱層節(jié)點(diǎn)序列,將第一隱層作為當(dāng)前處理隱層,進(jìn)入樣本點(diǎn)預(yù)測單元,以使樣本點(diǎn)預(yù)測單元得到第二預(yù)測語音樣本點(diǎn)。
模型建立模塊1640還用于根據(jù)第一預(yù)測語音樣本點(diǎn)與對應(yīng)的第一原始語音樣本點(diǎn)、第二預(yù)測語音樣本點(diǎn)與對應(yīng)的第二原始語音樣本點(diǎn)采用差距最小原則確定統(tǒng)計(jì)參數(shù)模型的模型參數(shù),得到對應(yīng)的目標(biāo)統(tǒng)計(jì)參數(shù)模型。
如圖19所示,在一個(gè)實(shí)施例中,提供一種語音合成裝置,包括以下內(nèi)容:
文本獲取模塊1910,用于獲取待轉(zhuǎn)換文本信息。
文本處理模塊1920,用于對待轉(zhuǎn)換文本信息進(jìn)行處理得到對應(yīng)的文本特征序列。
初始化模塊1930,用于獲取初始化語音樣本點(diǎn)與文本特征序列中的部分文本特征樣本點(diǎn)匹配形成初始化向量矩陣。
預(yù)測樣本點(diǎn)序列獲取模塊1940,用于將初始化向量矩陣輸入上述任意一個(gè)實(shí)施例中的目標(biāo)統(tǒng)計(jì)參數(shù)模型中,得到文本特征序列對應(yīng)的預(yù)測語音樣本點(diǎn)序列。
語音合成模塊1950,用于根據(jù)預(yù)測語音樣本點(diǎn)序列輸出待轉(zhuǎn)換文本信息對應(yīng)的合成語音。
本實(shí)施例中,語音合成裝置通過對待轉(zhuǎn)換成語音的文本信息進(jìn)行處理獲取對應(yīng)的文本特征序列,對文本特征序列進(jìn)行采樣獲取對應(yīng)的文本特征序列樣本點(diǎn),將獲取的文本特征樣本點(diǎn)中的其中一部分文本特征樣本點(diǎn)與初始化語音序列匹配形成初始化向量矩陣,將初始化向量矩陣輸入根據(jù)文本序列樣本點(diǎn)與原始語音樣本點(diǎn)建立的目標(biāo)統(tǒng)計(jì)參數(shù)模型得到預(yù)測語音樣本點(diǎn)序列,并根據(jù)預(yù)測語音樣本點(diǎn)序列輸出待轉(zhuǎn)換文本信息對應(yīng)的合成語音。通過對待轉(zhuǎn)換成語音信息的文本信息直接進(jìn)行采樣,然后將文本特征樣本點(diǎn)序列與初始化語音輸入建立的目標(biāo)統(tǒng)計(jì)模型得到預(yù)測語音樣本點(diǎn)序列,不需要對待轉(zhuǎn)換的文本信息進(jìn)行特征提取,最大程度上避免了語音在特征提取的過程中造成的原始信息的丟失,并且直接輸出預(yù)測語音樣本點(diǎn),不需要任何后端的聲碼器模塊,提高了合成語音的自然度和飽和度。
如圖20所示,在一個(gè)實(shí)施例中,文本處理模塊1920包括:
第一文本處理單元1921,用于對待轉(zhuǎn)換文本信息中的段落進(jìn)行語句切分、分詞處理,得到第一文本特征序列。
第二文本處理單元1922,用于對待轉(zhuǎn)換文本信息進(jìn)行分詞和詞性標(biāo)注處理,得到第二文本特征序列。
第三文本處理單元1923,用于將待轉(zhuǎn)換文本信息進(jìn)行韻律層級預(yù)測處理,并生成讀音,生成讀音過程中進(jìn)行多音字、兒化音、輕聲至少一種處理,得到第三文本特征序列。
文本序列獲取單元1924,用于根據(jù)第一文本特征序列、第二文本特征序列、第三文本特征序列生成對應(yīng)的文本特征序列。
如圖21所示,在一個(gè)實(shí)施例中,預(yù)測樣本點(diǎn)序列獲取模塊1940,包括:
預(yù)測樣本點(diǎn)獲取單元1941,用于將初始化向量矩陣輸入上述任意一個(gè)實(shí)施例中的目標(biāo)統(tǒng)計(jì)參數(shù)模型中,得到第一預(yù)測語音樣本點(diǎn)。
矩陣更新單元1942,用于將第一預(yù)測語音樣本點(diǎn)作為當(dāng)前預(yù)測樣本點(diǎn),從文本特征序列中獲取與當(dāng)前預(yù)測語音樣本點(diǎn)對應(yīng)的目標(biāo)文本特征樣本點(diǎn)匹配形成向量對,并累加至初始化向量矩陣中得到更新向量矩陣。
預(yù)測樣本點(diǎn)序列獲取單元1943,用于將更新向量矩陣輸入目標(biāo)統(tǒng)計(jì)參數(shù)模型中,得到第二預(yù)測語音樣本點(diǎn),將第二預(yù)測樣本點(diǎn)作為當(dāng)前預(yù)測樣本點(diǎn),進(jìn)入矩陣更新單元,直到文本特征序列中的全部文本特征樣本點(diǎn)存在對應(yīng)的預(yù)測語音樣本點(diǎn),預(yù)測語音樣本點(diǎn)組成預(yù)測語音樣本點(diǎn)序列。
以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡潔,未對上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。