亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語(yǔ)音轉(zhuǎn)換方法和裝置與流程

文檔序號(hào):12806121閱讀:309來源:國(guó)知局
語(yǔ)音轉(zhuǎn)換方法和裝置與流程

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及一種語(yǔ)音轉(zhuǎn)換方法和裝置。



背景技術(shù):

隨著計(jì)算機(jī)技術(shù)的發(fā)展,語(yǔ)音內(nèi)容轉(zhuǎn)換的應(yīng)用越來越廣泛,如在有聲小說朗讀或者語(yǔ)音導(dǎo)航中實(shí)現(xiàn)個(gè)性化的聲音等。伴隨著生活水平的提高,人們對(duì)語(yǔ)音內(nèi)容轉(zhuǎn)換已經(jīng)不僅僅滿足于單純對(duì)音色實(shí)現(xiàn)轉(zhuǎn)換,還要求轉(zhuǎn)換的語(yǔ)音更符合特定的說話人的口語(yǔ)習(xí)慣和說話風(fēng)格。

傳統(tǒng)的語(yǔ)音內(nèi)容轉(zhuǎn)換技術(shù)中,在需要轉(zhuǎn)換得到目標(biāo)說話人語(yǔ)音時(shí),主要是通過音色轉(zhuǎn)換的方法,將其他說話人的語(yǔ)音轉(zhuǎn)換為目標(biāo)說話人的語(yǔ)音。然而,傳統(tǒng)的語(yǔ)音轉(zhuǎn)換方法得到的語(yǔ)音無法真實(shí)地反應(yīng)說話人的語(yǔ)音風(fēng)格,導(dǎo)致語(yǔ)音轉(zhuǎn)換效果與真實(shí)說話人相比有一定的差距。



技術(shù)實(shí)現(xiàn)要素:

基于此,有必要針對(duì)傳統(tǒng)的語(yǔ)音轉(zhuǎn)化方法在轉(zhuǎn)換符合說話人語(yǔ)音風(fēng)格的語(yǔ)音時(shí)效果不理想的問題,提供一種語(yǔ)音轉(zhuǎn)換方法和裝置。

一種語(yǔ)音轉(zhuǎn)換方法,所述方法包括:

獲取目標(biāo)文本;

合成與所述目標(biāo)文本對(duì)應(yīng)的第一機(jī)器語(yǔ)音;

從異步機(jī)器語(yǔ)音庫(kù)中,篩選出韻律特征與所述第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列;

在同步機(jī)器語(yǔ)音庫(kù)中,查找與所述異步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的同步機(jī)器語(yǔ)音單元序列;

根據(jù)所述同步機(jī)器語(yǔ)音單元序列的韻律特征,合成與所述目標(biāo)文本對(duì)應(yīng)的第二機(jī)器語(yǔ)音;

從所述同步機(jī)器語(yǔ)音庫(kù)中,挑選與所述第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元;

將說話人語(yǔ)音庫(kù)中與所述同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元拼接,得到說話人目標(biāo)語(yǔ)音;

其中,所述同步機(jī)器語(yǔ)音庫(kù)、所述異步機(jī)器語(yǔ)音庫(kù)和所述說話人語(yǔ)音庫(kù)的文本內(nèi)容相同,且所述說話人語(yǔ)音庫(kù)與所述同步機(jī)器語(yǔ)音庫(kù)的韻律特征相匹配。

一種語(yǔ)音轉(zhuǎn)換裝置,其特征在于,所述裝置包括:

獲取模塊,用于獲取目標(biāo)文本;

第一合成模塊,用于合成與所述目標(biāo)文本對(duì)應(yīng)的第一機(jī)器語(yǔ)音;

第一篩選模塊,用于從異步機(jī)器語(yǔ)音庫(kù)中,篩選出韻律特征與所述第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列;

查找模塊,用于在同步機(jī)器語(yǔ)音庫(kù)中,查找與所述異步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的同步機(jī)器語(yǔ)音單元序列;

第二合成模塊,用于根據(jù)所述同步機(jī)器語(yǔ)音單元序列的韻律特征,合成與所述目標(biāo)文本對(duì)應(yīng)的第二機(jī)器語(yǔ)音;

第二篩選模塊,用于從所述同步機(jī)器語(yǔ)音庫(kù)中,挑選與所述第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元;

拼接模塊,將說話人語(yǔ)音庫(kù)中與所述同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元拼接,得到說話人目標(biāo)語(yǔ)音;

其中,所述同步機(jī)器語(yǔ)音庫(kù)、所述異步機(jī)器語(yǔ)音庫(kù)和所述說話人語(yǔ)音庫(kù)的文本內(nèi)容相同,且所述說話人語(yǔ)音庫(kù)與所述同步機(jī)器語(yǔ)音庫(kù)的韻律特征相匹配。

上述語(yǔ)音轉(zhuǎn)換方法和裝置,用于拼接得到說話人目標(biāo)語(yǔ)音的語(yǔ)音單元選自說話人語(yǔ)音庫(kù),拼接轉(zhuǎn)換的語(yǔ)音保留了說話人的音色。而且利用異步機(jī)器語(yǔ)音庫(kù)中符合機(jī)器韻律特征的異步機(jī)器語(yǔ)音單元序列,與同步機(jī)器語(yǔ)音庫(kù)中符合說話人韻律特征的同步機(jī)器語(yǔ)音單元序列的對(duì)應(yīng)關(guān)系,在合成符合機(jī)器韻律特征的第一機(jī)器語(yǔ)音后,根據(jù)對(duì)應(yīng)關(guān)系確定符合說話人語(yǔ)音風(fēng)格的韻律特征。再根據(jù)該韻律特征合成第二機(jī)器語(yǔ)音,以第二機(jī)器語(yǔ)音的聲學(xué)特征為依據(jù)從同步機(jī)器語(yǔ)音庫(kù)中挑選與第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元,再將說話人語(yǔ)音庫(kù)中與挑選出的同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元拼接,得到說話人目標(biāo)語(yǔ)音,保留了說話人的韻律特征。這樣即又保留了說話人音色,又保留了說話人的韻律特征,使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格,從而提高了語(yǔ)音轉(zhuǎn)換效果。

附圖說明

圖1為一個(gè)實(shí)施例中用于實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換方法的終端的內(nèi)部結(jié)構(gòu)示意圖;

圖2為一個(gè)實(shí)施例中在終端上實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換方法時(shí)的界面示意圖;

圖3為一個(gè)實(shí)施例中語(yǔ)音轉(zhuǎn)換方法的流程示意圖;

圖4為一個(gè)實(shí)施例中從異步機(jī)器語(yǔ)音庫(kù)中,篩選出韻律特征與第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列的步驟的流程示意圖;

圖5為一個(gè)實(shí)施例中從同步機(jī)器語(yǔ)音庫(kù)中,挑選與第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元的步驟的流程示意圖;

圖6為一個(gè)實(shí)施例中將說話人語(yǔ)音庫(kù)中與同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元拼接,得到說話人目標(biāo)語(yǔ)音的步驟的流程示意圖;

圖7為一個(gè)實(shí)施例中相鄰的說話人語(yǔ)音單元拼接的示意圖;

圖8為一個(gè)實(shí)施例中構(gòu)建語(yǔ)音庫(kù)的邏輯框圖;

圖9為一個(gè)實(shí)施例中語(yǔ)音轉(zhuǎn)換方法的邏輯框圖;

圖10為一個(gè)實(shí)施例中語(yǔ)音轉(zhuǎn)換裝置的結(jié)構(gòu)框圖;

圖11為另一個(gè)實(shí)施例中語(yǔ)音轉(zhuǎn)換裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

圖1為一個(gè)實(shí)施例中用于實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換方法的終端的內(nèi)部結(jié)構(gòu)示意圖。該終端可以是臺(tái)式終端或移動(dòng)終端,移動(dòng)終端具體可以手機(jī)、平板電腦、筆記本電腦等中的至少一種。如圖1所示,該終端包括通過系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)、內(nèi)存儲(chǔ)器和網(wǎng)絡(luò)接口、顯示屏和輸入裝置。其中,終端的非易失性存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng),還包括一種語(yǔ)音轉(zhuǎn)換裝置,該語(yǔ)音轉(zhuǎn)換裝置用于實(shí)現(xiàn)一種語(yǔ)音轉(zhuǎn)換方法。該處理器用于提供計(jì)算和控制能力,支撐整個(gè)終端的運(yùn)行。終端中的內(nèi)存儲(chǔ)器為非易失性存儲(chǔ)介質(zhì)中的語(yǔ)音轉(zhuǎn)換裝置的運(yùn)行提供環(huán)境,該內(nèi)存儲(chǔ)器中可儲(chǔ)存有計(jì)算機(jī)可讀指令,該計(jì)算機(jī)可讀指令被所述處理器執(zhí)行時(shí),可使得所述處理器執(zhí)行一種語(yǔ)音轉(zhuǎn)換方法。網(wǎng)絡(luò)接口用于與服務(wù)器進(jìn)行網(wǎng)絡(luò)通信,如將說話人語(yǔ)音庫(kù)發(fā)送至服務(wù)器進(jìn)行存儲(chǔ)等。終端的顯示屏可以是液晶顯示屏或者電子墨水顯示屏等,輸入裝置可以是顯示屏上覆蓋的觸摸層,也可以是終端外殼上設(shè)置的按鍵、軌跡球或觸控板,也可以是外接的鍵盤、觸控板或鼠標(biāo)等。本領(lǐng)域技術(shù)人員可以理解,圖1中示出的結(jié)構(gòu),僅僅是與本申請(qǐng)方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對(duì)本申請(qǐng)方案所應(yīng)用于其上的終端的限定,具體的終端可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。

圖2示出了一個(gè)實(shí)施例中,在終端上實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換方法時(shí)的界面示意圖。參考圖2,用戶可通過終端會(huì)話界面提供的文本輸入框210輸入文本內(nèi)容,終端在獲取到用戶輸入的文本內(nèi)容后,將該文本內(nèi)容作為目標(biāo)文本,合成與該目標(biāo)文本對(duì)應(yīng)的第一機(jī)器語(yǔ)音,再?gòu)漠惒綑C(jī)器語(yǔ)音庫(kù)中,篩選出韻律特征與第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列,并在同步機(jī)器語(yǔ)音庫(kù)中,查找與該異步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的同步機(jī)器語(yǔ)音單元序列,從而得到符合說話人語(yǔ)音風(fēng)格的韻律特征。

進(jìn)一步地,終端可再根據(jù)該同步機(jī)器語(yǔ)音單元序列的韻律特征,合成與目標(biāo)文本對(duì)應(yīng)的第二機(jī)器語(yǔ)音,再?gòu)乃鐾綑C(jī)器語(yǔ)音庫(kù)中,挑選與第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元,并將說話人語(yǔ)音庫(kù)中與該同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元拼接,得到說話人目標(biāo)語(yǔ)音。終端可在得到說話人目標(biāo)語(yǔ)音后,將得到的該說話人目標(biāo)語(yǔ)音發(fā)送至當(dāng)前會(huì)話中的另一會(huì)話用戶對(duì)應(yīng)的終端。

其中,同步機(jī)器語(yǔ)音庫(kù)、異步機(jī)器語(yǔ)音庫(kù)和說話人語(yǔ)音庫(kù)的文本內(nèi)容相同,且說話人語(yǔ)音庫(kù)與同步機(jī)器語(yǔ)音庫(kù)的韻律特征相匹配。在其他實(shí)施例中,終端也可將異步機(jī)器語(yǔ)音庫(kù)、同步機(jī)器語(yǔ)音庫(kù)和說話人語(yǔ)音庫(kù)上傳至服務(wù)器,使得服務(wù)器也可基于異步機(jī)器語(yǔ)音庫(kù)、同步機(jī)器語(yǔ)音庫(kù)和說話人語(yǔ)音庫(kù)實(shí)現(xiàn)該語(yǔ)音轉(zhuǎn)換方法。

如圖3所示,在一個(gè)實(shí)施例中,提供了一種語(yǔ)音轉(zhuǎn)換方法,本實(shí)施例以該方法應(yīng)用于上述圖1中的終端來舉例說明。該方法具體包括如下步驟:

s302,獲取目標(biāo)文本。

其中,目標(biāo)文本是指待轉(zhuǎn)換的說話人目標(biāo)語(yǔ)音對(duì)應(yīng)的文本內(nèi)容。文本內(nèi)容是指多于一個(gè)的字符按照順序構(gòu)成的字符串。在本實(shí)施例中,待轉(zhuǎn)換的說話人目標(biāo)語(yǔ)音對(duì)應(yīng)的文本內(nèi)容可以是說話人未曾說過的內(nèi)容。

具體地,終端可提供輸入界面,以獲取用戶通過輸入界面輸入的需要進(jìn)行語(yǔ)音轉(zhuǎn)換的文本內(nèi)容,將獲取的文本內(nèi)容作為目標(biāo)文本。

s304,合成與目標(biāo)文本對(duì)應(yīng)的第一機(jī)器語(yǔ)音。

其中,機(jī)器語(yǔ)音是指通過自動(dòng)語(yǔ)音合成系統(tǒng)處理得到的符合自動(dòng)語(yǔ)音合成系統(tǒng)語(yǔ)音風(fēng)格的音頻數(shù)據(jù)。第一機(jī)器語(yǔ)音是指音色與韻律特征均符合自動(dòng)語(yǔ)音合成系統(tǒng)語(yǔ)音風(fēng)格的機(jī)器語(yǔ)音。音色是指發(fā)聲體發(fā)出聲音的特色,不同的發(fā)聲體由于材料、結(jié)構(gòu)不同,發(fā)出聲音的音色也就不同。在物理學(xué)上通過頻譜參數(shù)來表征音色。韻律特征是指發(fā)聲體發(fā)出聲音的基礎(chǔ)音調(diào)與節(jié)奏,在物理學(xué)上通過基頻參數(shù)、時(shí)長(zhǎng)分布以及信號(hào)強(qiáng)度來表征韻律特征。自動(dòng)語(yǔ)音合成系統(tǒng)是用于進(jìn)行語(yǔ)音合成的系統(tǒng),具體可以是tts(texttospeech從文本到語(yǔ)音)參數(shù)合成系統(tǒng)。

具體地,終端在獲取到目標(biāo)文本后,可基于tts參數(shù)合成系統(tǒng)進(jìn)行語(yǔ)音合成。終端可先對(duì)目標(biāo)文本進(jìn)行語(yǔ)言學(xué)分析,以確定句子的層結(jié)構(gòu)和每個(gè)字的音素組成,包括文本的斷句、字詞切分、多音字的處理、數(shù)字的處理、縮略語(yǔ)的處理等。終端可再將處理好的文本用自動(dòng)語(yǔ)音合成系統(tǒng)合成聲音,按照tts韻律特征轉(zhuǎn)化成語(yǔ)音波形,得到第一機(jī)器語(yǔ)音。

s306,從異步機(jī)器語(yǔ)音庫(kù)中,篩選出韻律特征與第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列;其中,同步機(jī)器語(yǔ)音庫(kù)、異步機(jī)器語(yǔ)音庫(kù)和說話人語(yǔ)音庫(kù)的文本內(nèi)容相同,且說話人語(yǔ)音庫(kù)與同步機(jī)器語(yǔ)音庫(kù)的韻律特征相匹配。

其中,說話人語(yǔ)音庫(kù)包括若干說話人語(yǔ)音單元序列。說話人語(yǔ)音單元序列是指至少一個(gè)的說話人語(yǔ)音單元按照順序構(gòu)成的序列。說話人語(yǔ)音單元庫(kù)中的各說話人語(yǔ)音單元序列均選擇說話人歷史語(yǔ)音。音色與韻律特征均符合說話人語(yǔ)音風(fēng)格。

說話人語(yǔ)音庫(kù)中各說話人語(yǔ)音單元序列均存在一個(gè)文本內(nèi)容相同的機(jī)器語(yǔ)音單元序列,由于這些機(jī)器語(yǔ)音單元序列的韻律特征不符合說話人韻律特征,故稱為異步機(jī)器語(yǔ)音單元序列。這些異步機(jī)器語(yǔ)音單元序列構(gòu)成異步機(jī)器語(yǔ)音庫(kù)。

說話人語(yǔ)音庫(kù)中各說話人語(yǔ)音單元序列均存在一個(gè)文本內(nèi)容相同且韻律特征匹配的機(jī)器語(yǔ)音單元序列,由于這些機(jī)器語(yǔ)音單元序列的韻律特征符合說話人韻律特征,故稱為同步機(jī)器語(yǔ)音單元序列。這些同步機(jī)器語(yǔ)音單元序列構(gòu)成同步機(jī)器語(yǔ)音庫(kù)。

進(jìn)一步地,可將異步機(jī)器語(yǔ)音庫(kù)、同步機(jī)器語(yǔ)音庫(kù)和說話人語(yǔ)音庫(kù)按照文本內(nèi)容對(duì)齊,合并作為平行語(yǔ)音庫(kù)。異步機(jī)器語(yǔ)音庫(kù)、同步機(jī)器語(yǔ)音庫(kù)和說話人語(yǔ)音庫(kù)均可存儲(chǔ)在文件、數(shù)據(jù)庫(kù)或者緩存中,在需要時(shí)從文件、數(shù)據(jù)庫(kù)或者緩存中獲取。

具體地,終端可采用枚舉的方式,依次獲取異步機(jī)器語(yǔ)音庫(kù)中的異步機(jī)器語(yǔ)音單元序列,并將獲取的異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音進(jìn)行韻律特征比較,在完成異步機(jī)器語(yǔ)音庫(kù)中所包括的各異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音的比較后,選取與第一機(jī)器語(yǔ)音韻律特征最相近的異步機(jī)器語(yǔ)音單元序列作為匹配的異步機(jī)器語(yǔ)音單元序列。

其中,韻律特征比較包括各異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音對(duì)應(yīng)的基頻參數(shù)的比較以及各異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音對(duì)應(yīng)的時(shí)長(zhǎng)分布的比較。

s308,在同步機(jī)器語(yǔ)音庫(kù)中,查找與異步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的同步機(jī)器語(yǔ)音單元序列。

其中,語(yǔ)音單元是終端自定義的時(shí)間尺度。在本實(shí)施例中,終端按照漢語(yǔ)拼音的構(gòu)建方式對(duì)說話人歷史語(yǔ)音進(jìn)行語(yǔ)音單元?jiǎng)澐?。舉例說明,漢字“單元”的拼音為“danyuan”,按照漢語(yǔ)拼音的構(gòu)建方式劃分可得到4個(gè)語(yǔ)音單元,分別為“d”、“an”、“y”和“uan”。在其他實(shí)施例中,終端也可按照字符或者音素等進(jìn)行語(yǔ)音單元?jiǎng)澐帧?/p>

具體地,終端可在同步機(jī)器語(yǔ)音庫(kù)中,查找與異步機(jī)器語(yǔ)音單元序列通過文本內(nèi)容建立對(duì)應(yīng)關(guān)系的同步機(jī)器語(yǔ)音單元序列,獲取該同步機(jī)器語(yǔ)音單元序列。

s310,根據(jù)同步機(jī)器語(yǔ)音單元序列的韻律特征,合成與目標(biāo)文本對(duì)應(yīng)的第二機(jī)器語(yǔ)音。

其中,第二機(jī)器語(yǔ)音是指音色符合自動(dòng)語(yǔ)音合成系統(tǒng)語(yǔ)音風(fēng)格,但韻律特征符合說話人語(yǔ)音風(fēng)格的機(jī)器語(yǔ)音。第二機(jī)器語(yǔ)音與第一機(jī)器語(yǔ)音均為機(jī)器語(yǔ)音,但是不同的機(jī)器語(yǔ)音。

具體地,終端可通過自動(dòng)語(yǔ)音合成系統(tǒng)按照同步機(jī)器語(yǔ)音單元序列的韻律特征合成符合說話人韻律特征的第二機(jī)器語(yǔ)音。

舉例說明,假設(shè)目標(biāo)文本內(nèi)容為“小橋流水人家”,基于tts參數(shù)合成系統(tǒng)根據(jù)tts自有韻律特征合成的第一機(jī)器語(yǔ)音為“小橋流-水-人家”。在同步機(jī)器語(yǔ)音庫(kù)中查找到的同步機(jī)器語(yǔ)音單元序列為“枯藤-老樹-昏鴉”,基于tts參數(shù)合成系統(tǒng)根據(jù)同步機(jī)器語(yǔ)音單元序列的韻律特征合成的第二機(jī)器語(yǔ)音為“小橋-流水-人家”。其中“-”表示停頓。

s312,從同步機(jī)器語(yǔ)音庫(kù)中,挑選與第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元。

其中,聲學(xué)特征是指發(fā)聲體振動(dòng)產(chǎn)生的聲波在物理學(xué)上的特征。聲學(xué)參數(shù)是用來表征聲學(xué)特征的參數(shù),具體包括基頻參數(shù)、頻譜參數(shù)和非周期性信號(hào)參數(shù)等。

具體地,終端可根據(jù)第二機(jī)器語(yǔ)音在生成階段的單元?jiǎng)澐?,得到相?yīng)的機(jī)器語(yǔ)音單元序列,再根據(jù)生成階段每個(gè)語(yǔ)音單元的讀音標(biāo)注,從同步機(jī)器語(yǔ)音庫(kù)查找讀音相同的同步機(jī)器語(yǔ)音單元作為候選同步機(jī)器語(yǔ)音單元。

終端可再查找同步機(jī)器語(yǔ)音庫(kù)中存儲(chǔ)的與候選同步機(jī)器語(yǔ)音單元存在對(duì)應(yīng)關(guān)系的單元聲學(xué)參數(shù),將查找到的單元聲學(xué)參數(shù)逐一與相應(yīng)的第二機(jī)器語(yǔ)音中的語(yǔ)音單元的單元聲學(xué)參數(shù)進(jìn)行比較,在完成單元聲學(xué)參數(shù)的比較后,選取與第二機(jī)器語(yǔ)音聲學(xué)參數(shù)最相近的候選同步機(jī)器語(yǔ)音單元作為聲學(xué)特征匹配的說話人語(yǔ)音單元。

s314,將說話人語(yǔ)音庫(kù)中與同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元拼接,得到說話人目標(biāo)語(yǔ)音。

具體地,終端可在說話人語(yǔ)音庫(kù)中,查找與同步機(jī)器語(yǔ)音單元通過文本內(nèi)容建立對(duì)應(yīng)關(guān)系的說話人語(yǔ)音單元,將查找到的說話人語(yǔ)音單元進(jìn)行拼接,得到說話人目標(biāo)語(yǔ)音。

上述語(yǔ)音轉(zhuǎn)換方法,用于拼接得到說話人目標(biāo)語(yǔ)音的語(yǔ)音單元選自說話人語(yǔ)音庫(kù),拼接轉(zhuǎn)換的語(yǔ)音保留了說話人的音色。而且利用異步機(jī)器語(yǔ)音庫(kù)中符合機(jī)器韻律特征的異步機(jī)器語(yǔ)音單元序列,與同步機(jī)器語(yǔ)音庫(kù)中符合說話人韻律特征的同步機(jī)器語(yǔ)音單元序列的對(duì)應(yīng)關(guān)系,在合成符合機(jī)器韻律特征的第一機(jī)器語(yǔ)音后,根據(jù)對(duì)應(yīng)關(guān)系確定符合說話人語(yǔ)音風(fēng)格的韻律特征。再根據(jù)該韻律特征合成第二機(jī)器語(yǔ)音,以第二機(jī)器語(yǔ)音的聲學(xué)特征為依據(jù)從同步機(jī)器語(yǔ)音庫(kù)中挑選與第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元,再將說話人語(yǔ)音庫(kù)中與挑選出的同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元拼接,得到說話人目標(biāo)語(yǔ)音,保留了說話人的韻律特征。這樣即又保留了說話人音色,又保留了說話人的韻律特征,使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格,從而提高了語(yǔ)音轉(zhuǎn)換效果。

如圖4所示,在一個(gè)實(shí)施例中,步驟s306包括以下步驟:

s402,按照第一機(jī)器語(yǔ)音,從異步機(jī)器語(yǔ)音庫(kù)中獲取候選異步機(jī)器語(yǔ)音單元序列。

具體地,終端可事先對(duì)異步機(jī)器語(yǔ)音庫(kù)中的異步機(jī)器語(yǔ)音單元序列按照異步機(jī)器語(yǔ)音單元序列所包括的異步機(jī)器語(yǔ)音單元的數(shù)量進(jìn)行分類。終端在合成第一機(jī)器語(yǔ)音后,可根據(jù)生成第一機(jī)器語(yǔ)音是的語(yǔ)音單元?jiǎng)澐郑y(tǒng)計(jì)劃分得到的機(jī)器語(yǔ)音單元的數(shù)量,從異步機(jī)器語(yǔ)音庫(kù)中獲取包括的異步機(jī)器語(yǔ)音單元的數(shù)量大于或者等于統(tǒng)計(jì)的數(shù)量的異步機(jī)器語(yǔ)音單元序列作為候選語(yǔ)音單元序列。

在一個(gè)實(shí)施例中,步驟s402具體包括:確定第一機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)音單元的數(shù)量;從異步機(jī)器語(yǔ)音庫(kù)中,獲取包括的異步機(jī)器語(yǔ)音單元的數(shù)量與確定的數(shù)量相等的候選異步機(jī)器語(yǔ)音單元序列。

具體地,終端可預(yù)先配置用于選擇異步機(jī)器語(yǔ)音單元序列的候選條件,該候選條件是包括的異步機(jī)器語(yǔ)音單元數(shù)量與第一機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)言單元數(shù)量相同。當(dāng)異步機(jī)器語(yǔ)音單元序列包括的異步機(jī)器語(yǔ)音單元數(shù)量大于或者等于第一機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)言單元數(shù)量時(shí),判定候選條件被滿足,將該異步機(jī)器語(yǔ)音單元序列或者該異步機(jī)器語(yǔ)音單元序列中包括的異步機(jī)器語(yǔ)音單元子序列作為候選異步機(jī)器語(yǔ)音單元序列。

在本實(shí)施例中,以第一機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)音單元的數(shù)量為依據(jù)選取候選異步機(jī)器語(yǔ)音單元序列進(jìn)行韻律特征差異度的計(jì)算,提高了韻律特征差異度的計(jì)算結(jié)果的可靠性。

在一個(gè)實(shí)施例中,從異步機(jī)器語(yǔ)音庫(kù)中,獲取包括的異步機(jī)器語(yǔ)音單元的數(shù)量與確定的數(shù)量相等的候選異步機(jī)器語(yǔ)音單元序列的步驟具體包括:遍歷異步機(jī)器語(yǔ)音庫(kù)所包括的異步機(jī)器語(yǔ)音單元序列;當(dāng)遍歷至的異步機(jī)器語(yǔ)音單元序列所包括的異步機(jī)器語(yǔ)音單元的數(shù)量小于確定的數(shù)量時(shí),則繼續(xù)遍歷;當(dāng)遍歷至的異步機(jī)器語(yǔ)音單元序列所包括的異步機(jī)器語(yǔ)音單元的數(shù)量等于確定的數(shù)量時(shí),則將遍歷至的異步機(jī)器語(yǔ)音單元序列作為候選異步機(jī)器語(yǔ)音單元序列;當(dāng)遍歷至的異步機(jī)器語(yǔ)音單元序列所包括的異步機(jī)器語(yǔ)音單元的數(shù)量大于確定的數(shù)量時(shí),則將遍歷至的異步機(jī)器語(yǔ)音單元序列,按照所包括的異步機(jī)器語(yǔ)音單元的順序以及確定的數(shù)量,拆分出候選異步機(jī)器語(yǔ)音單元序列。

在本實(shí)施例中,對(duì)所包括的異步機(jī)器語(yǔ)音單元的數(shù)量大于第二機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)音單元的數(shù)量的異步機(jī)器語(yǔ)音單元序列,按照所包括的異步機(jī)器語(yǔ)音單元的順序以及確定的數(shù)量,拆分出異步機(jī)器語(yǔ)音單元子序列作為候選異步機(jī)器語(yǔ)音單元序列,既符合自然語(yǔ)言的連貫性,保證了韻律特征差異度的計(jì)算結(jié)果的可靠性,又提高了異步機(jī)器語(yǔ)音庫(kù)中語(yǔ)料的利用率。

舉例說明,假設(shè)第一機(jī)器語(yǔ)音單元可劃分得到3個(gè)機(jī)器語(yǔ)言單元:a-b-c,終端在遍歷異步機(jī)器語(yǔ)音庫(kù)所包括的異步機(jī)器語(yǔ)音單元序列時(shí),當(dāng)遍歷至的異步機(jī)器語(yǔ)音單元序列為:d-e,該異步機(jī)器語(yǔ)音單元序列包括2個(gè)異步機(jī)器語(yǔ)言單元,不符合候選條件,繼續(xù)進(jìn)行遍歷。當(dāng)遍歷至的異步機(jī)器語(yǔ)音單元序列為:f-g-h,該異步機(jī)器語(yǔ)音單元序列包括3個(gè)異步機(jī)器語(yǔ)言單元,符合候選條件,終端可將“f-g-h”直接作為候選異步機(jī)器語(yǔ)音單元序列。

當(dāng)遍歷至的異步機(jī)器語(yǔ)音單元序列為:i-j-k-l,該異步機(jī)器語(yǔ)音單元序列包括4個(gè)異步機(jī)器語(yǔ)言單元,符合候選條件,但由于該異步機(jī)器語(yǔ)音單元序列包括的異步機(jī)器語(yǔ)音單元數(shù)量大于第一機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)音單元的數(shù)量,則需從該異步機(jī)器語(yǔ)音單元序列中差分出包括的異步機(jī)器語(yǔ)音單元數(shù)量等于第一機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)音單元的數(shù)量的異步機(jī)器語(yǔ)音單元子序列。由于異步機(jī)器語(yǔ)音單元序列具有單向性,終端可將異步機(jī)器語(yǔ)音單元子序列“i-j-k”、“j-k-l”、“i-k-l”和“i-j-l”作為候選異步機(jī)器語(yǔ)音單元序列。

s404,確定候選異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音的韻律特征差異度。

具體地,終端可在選取候選異步機(jī)器語(yǔ)音單元序列后,依次計(jì)算各候選異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音的韻律特征差異度。

在一個(gè)實(shí)施例中,步驟s404具體包括:從第一機(jī)器語(yǔ)音中劃分出機(jī)器語(yǔ)音單元;根據(jù)候選異步機(jī)器語(yǔ)音單元序列所包括的各異步機(jī)器語(yǔ)音單元與各自對(duì)應(yīng)的劃分出的機(jī)器語(yǔ)音單元之間的韻律參數(shù)差異值,生成候選異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音的韻律特征差異度;其中,韻律參數(shù)差異值包括時(shí)長(zhǎng)差異值、基頻變化率差異值、聲學(xué)參數(shù)的時(shí)長(zhǎng)分布差異和基頻變化率的概率分布差異中的至少一種。

具體地,終端可利用合成第一機(jī)器語(yǔ)音時(shí)得到的第一機(jī)器語(yǔ)音的韻律參數(shù)和相應(yīng)的機(jī)器語(yǔ)音單元?jiǎng)澐?,得到單元韻律參?shù)。終端可再獲取候選異步機(jī)器語(yǔ)音單元序列所包括的各異步機(jī)器語(yǔ)音單元所對(duì)應(yīng)的單元韻律參數(shù),計(jì)算異步機(jī)器語(yǔ)音單元對(duì)應(yīng)的單元韻律參數(shù)與相應(yīng)的劃分的機(jī)器語(yǔ)音單元對(duì)應(yīng)的單元韻律參數(shù)的差異值,從而計(jì)算候選異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音的韻律特征差異度。

在本實(shí)施例中,通過候選異步機(jī)器語(yǔ)音單元序列所包括的各異步機(jī)器語(yǔ)音單元與各自對(duì)應(yīng)的劃分出的機(jī)器語(yǔ)音單元之間的各韻律參數(shù)差異值來計(jì)算韻律特征差異度,利用影響韻律特征的各參數(shù)進(jìn)行計(jì)算,提高了韻律特征匹配的準(zhǔn)確性。

異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音的韻律特征差異度可按照以下公式計(jì)算得到:

其中,fa表示候選異步機(jī)器語(yǔ)音單元序列a的韻律特征參數(shù),fb表示第一機(jī)器語(yǔ)音b的韻律特征參數(shù),n表示計(jì)算韻律特征差異度時(shí)選取的韻律特征的個(gè)數(shù),wn表示第n個(gè)韻律特征的權(quán)值,cprosody表示韻律特征差異度,cprosody的值越小表示候選異步機(jī)器語(yǔ)音單元序列a與第一機(jī)器語(yǔ)音b的韻律特征越匹配。候選異步機(jī)器語(yǔ)音單元序列a與第一機(jī)器語(yǔ)音b的韻律參數(shù)差異值|fa-fb|包括時(shí)長(zhǎng)差異值、基頻變化率差異值、聲學(xué)參數(shù)的時(shí)長(zhǎng)分布差異和基頻變化率的概率分布差異中的至少一種。

時(shí)長(zhǎng)差異值包括異步機(jī)器語(yǔ)音單元之前的語(yǔ)音停頓時(shí)長(zhǎng)與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元之前的語(yǔ)音停頓時(shí)長(zhǎng)的差異值δthead、異步機(jī)器語(yǔ)音單元讀音時(shí)長(zhǎng)與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元讀音時(shí)長(zhǎng)的差異值δtcurr和異步機(jī)器語(yǔ)音單元之后的語(yǔ)音停頓時(shí)長(zhǎng)與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元之后的語(yǔ)音停頓時(shí)長(zhǎng)的差異值δttail。

δf0,a表示候選異步機(jī)器語(yǔ)音單元序列a的基頻變化率,δf0,b表示第一機(jī)器語(yǔ)音b的基頻變化率?;l變化率為基頻的一階導(dǎo)數(shù)。|δf0,a-δf0,b|表示候選異步機(jī)器語(yǔ)音單元序列a與第一機(jī)器語(yǔ)音b基頻變化率的差異值。

pt,a表示候選異步機(jī)器語(yǔ)音單元序列a對(duì)應(yīng)的聲學(xué)參數(shù)的時(shí)長(zhǎng)分布,pt,b表示第一機(jī)器語(yǔ)音b對(duì)應(yīng)的聲學(xué)參數(shù)的時(shí)長(zhǎng)分布,kld(pt,a,pt,b)表示對(duì)候選異步機(jī)器語(yǔ)音單元序列a與第一機(jī)器語(yǔ)音b各自對(duì)應(yīng)的聲學(xué)參數(shù)的時(shí)長(zhǎng)分布求取kl散度(kullback–leiblerdivergencekld)。在本實(shí)施例中采用高斯分布對(duì)聲學(xué)參數(shù)的時(shí)長(zhǎng)分布進(jìn)行建模,將pt,a等價(jià)為異步機(jī)器語(yǔ)音單元序列a時(shí)長(zhǎng)分布的均值和方差,將pt,b等價(jià)為第一機(jī)器語(yǔ)音b時(shí)長(zhǎng)分布的均值和方差。

表示候選異步機(jī)器語(yǔ)音單元序列a對(duì)應(yīng)的基頻變化率的概率分布,表示第一機(jī)器語(yǔ)音b對(duì)應(yīng)的基頻變化率的概率分布,表示對(duì)候選異步機(jī)器語(yǔ)音單元序列a與第一機(jī)器語(yǔ)音b各自對(duì)應(yīng)的基頻變化率的概率分布求取kl散度。在本實(shí)施例中采用高斯分布對(duì)基頻變化率的概率分布進(jìn)行建模,將等價(jià)為異步機(jī)器語(yǔ)音單元序列a基頻變化率的概率分布的均值和方差,將等價(jià)為第一機(jī)器語(yǔ)音b基頻變化率的概率分布的均值和方差。

在一維單高斯模型情況下,kld的具體定義如下:

kld(pa(x|u1,σ1),pb(x|u2,σ2))=-∫pa(x)logpb(x)dx+∫pa(x)logpa(x)dx(2)

其中,pa(x|u1,σ1)表示異步機(jī)器語(yǔ)音單元序列a的韻律參數(shù)服從均值為u1方差為σ1的高斯分布。pa(x|u2,σ2)表示第一機(jī)器語(yǔ)音b的韻律參數(shù)服從均值為u2方差為σ2的高斯分布。

s406,將對(duì)應(yīng)最小韻律特征差異度的候選異步機(jī)器語(yǔ)音單元序列,作為與第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列。

在本實(shí)施例中,以異步機(jī)器語(yǔ)音庫(kù)中異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音計(jì)算韻律特征差異度為約束條件,選取與第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列,提高了韻律特征選取的準(zhǔn)確性,使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格。

如圖5所示,在一個(gè)實(shí)施例中,步驟s312具體包括以下步驟:

s502,從第二機(jī)器語(yǔ)音中劃分出機(jī)器語(yǔ)音單元。

s504,確定劃分出的各機(jī)器語(yǔ)音單元的讀音特征。

s506,從同步機(jī)器語(yǔ)音庫(kù)中,篩選讀音特征與劃分出的各機(jī)器語(yǔ)音單元的讀音特征匹配的同步機(jī)器語(yǔ)音單元子集。

具體地,終端可遍歷同步機(jī)器語(yǔ)音庫(kù)中的同步機(jī)器語(yǔ)音單元,在遍歷時(shí)將遍歷的同步機(jī)器語(yǔ)音單元的讀音與第二機(jī)器語(yǔ)音中標(biāo)注出的讀音進(jìn)行比對(duì),當(dāng)遍歷的同步機(jī)器語(yǔ)音單元的讀音與第二機(jī)器語(yǔ)音中標(biāo)注出的讀音一致時(shí),選取該同步機(jī)器語(yǔ)音單元,得到讀音特征與劃分出的各機(jī)器語(yǔ)音單元的讀音特征匹配的同步機(jī)器語(yǔ)音單元子集。

s508,對(duì)于各同步機(jī)器語(yǔ)音單元子集中的各同步機(jī)器語(yǔ)音單元,確定與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元的聲學(xué)特征差異度。

具體地,終端可遍歷各同步機(jī)器語(yǔ)音單元子集中的各同步機(jī)器語(yǔ)音單元,在遍歷時(shí)獲取遍歷的同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的聲學(xué)參數(shù),將獲取的聲學(xué)參數(shù)逐一與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元對(duì)應(yīng)的聲學(xué)參數(shù)計(jì)算聲學(xué)特征差異度。

在一個(gè)實(shí)施例中,步驟s508具體包括以下步驟:確定各同步機(jī)器語(yǔ)音單元子集中各同步機(jī)器語(yǔ)音單元的聲學(xué)參數(shù);確定劃分出的各機(jī)器語(yǔ)音單元的聲學(xué)參數(shù);對(duì)于各同步機(jī)器語(yǔ)音單元和相應(yīng)的劃分出的機(jī)器語(yǔ)音單元,計(jì)算相應(yīng)的聲學(xué)參數(shù)的差異值;根據(jù)計(jì)算得到的差異值,生成與該差異值正相關(guān)的聲學(xué)特征差異度。

具體地,終端可在同步機(jī)器語(yǔ)音庫(kù)中查找與同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的單元聲學(xué)參數(shù)。終端也可獲取在合成第二機(jī)器語(yǔ)音時(shí),通過聲學(xué)模型輸出的第二機(jī)器語(yǔ)音中各語(yǔ)音單元對(duì)應(yīng)的單元聲學(xué)參數(shù)。

其中,同步機(jī)器語(yǔ)音單元與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元的聲學(xué)特征差異度可按照以下公式計(jì)算得到:

公式(3)中,tc表示聲學(xué)特征差異度,n表示計(jì)算聲學(xué)特征差異度時(shí)使用的聲學(xué)參數(shù)的個(gè)數(shù),fa表示同步機(jī)器語(yǔ)音單元a對(duì)應(yīng)的聲學(xué)參數(shù),fb表示相應(yīng)的劃分出的機(jī)器語(yǔ)音單元b對(duì)應(yīng)的聲學(xué)參數(shù),wn表示第n個(gè)韻律特征的權(quán)值。tc的值越小,表示同步機(jī)器語(yǔ)音單元a與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元b的聲學(xué)特征越匹配。

在本實(shí)施例中,通過同步機(jī)器語(yǔ)音單元與各自對(duì)應(yīng)的劃分出的機(jī)器語(yǔ)音單元之間的各聲學(xué)參數(shù)差異值來計(jì)算聲學(xué)特征差異度,利用影響聲學(xué)特征的各參數(shù)進(jìn)行計(jì)算,提高了聲學(xué)特征匹配的準(zhǔn)確性。

s510,挑選出對(duì)應(yīng)最小聲學(xué)特征差異度的同步機(jī)器語(yǔ)音單元,作為與第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元。

在本實(shí)施例中,以同步機(jī)器語(yǔ)音庫(kù)中同步機(jī)器語(yǔ)音單元與第二機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)言單元計(jì)算的聲學(xué)特征差異度為約束條件,選取與第二機(jī)器語(yǔ)音的聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元,提高了聲學(xué)特征選取的準(zhǔn)確性,使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格。

如圖6所示,在一個(gè)實(shí)施例中,步驟s314具體包括如下步驟:

s602,將挑選出的同步機(jī)器語(yǔ)音單元,按照所對(duì)應(yīng)的目標(biāo)文本中的讀音順序排序。

具體地,終端在構(gòu)建同步機(jī)器語(yǔ)音庫(kù)時(shí),相應(yīng)構(gòu)建了同步機(jī)器語(yǔ)音庫(kù)中各同步機(jī)器語(yǔ)音單元與各同步機(jī)器語(yǔ)音單元的單元讀音的對(duì)應(yīng)關(guān)系。終端在挑選出的同步機(jī)器語(yǔ)音單元后,可根據(jù)各同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的單元讀音,按照目標(biāo)文本中的讀音順序?qū)μ暨x出的同步機(jī)器語(yǔ)音單元進(jìn)行排序。

s604,確定排序后的同步機(jī)器語(yǔ)音單元中相鄰的同步機(jī)器語(yǔ)音單元的拼接位置。

具體地,終端可在同步機(jī)器語(yǔ)音庫(kù)中獲取相鄰的同步機(jī)器語(yǔ)音單元各自對(duì)應(yīng)的單元聲學(xué)參數(shù),計(jì)算同步機(jī)器語(yǔ)音單元中相鄰的同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的單元聲學(xué)參數(shù)的相似度,根據(jù)計(jì)算的相似度的確定排序后的同步機(jī)器語(yǔ)音單元中相鄰的同步機(jī)器語(yǔ)音單元的拼接位置。

在一個(gè)實(shí)施例中,步驟s604具體包括:獲取從挑選出的各同步機(jī)器語(yǔ)音單元?jiǎng)澐殖龅恼Z(yǔ)音幀;確定相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀數(shù);其中,相鄰的同步機(jī)器語(yǔ)音單元各自的與拼接重疊語(yǔ)音幀數(shù)對(duì)應(yīng)的語(yǔ)音幀之間的差異度最小化;根據(jù)拼接重疊語(yǔ)音幀數(shù)確定排序后的同步機(jī)器語(yǔ)音單元中相鄰的同步機(jī)器語(yǔ)音單元的拼接位置。

具體地,終端可預(yù)先設(shè)置語(yǔ)音幀的時(shí)長(zhǎng),比如5ms或者10ms等。終端可再將各同步機(jī)器語(yǔ)音單元按照預(yù)先設(shè)置的時(shí)長(zhǎng)在時(shí)域上進(jìn)行劃分,得到多個(gè)語(yǔ)音幀。在本實(shí)施例中,終端可采用枚舉的方式,依次增加相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀數(shù),按照拼接重疊語(yǔ)音幀數(shù)的遞增,逐一計(jì)算相鄰的同步機(jī)器語(yǔ)音單元各自的與拼接重疊語(yǔ)音幀數(shù)對(duì)應(yīng)的語(yǔ)音幀之間的差異度,選取差異度最小時(shí)對(duì)應(yīng)的拼接重疊語(yǔ)音幀數(shù)為確定的拼接重疊語(yǔ)音幀數(shù)。

進(jìn)一步地,終端在相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀數(shù)后,可獲取事先配置的拼接函數(shù),根據(jù)拼接函數(shù)確定排序在前的同步機(jī)器語(yǔ)音單元所包括的拼接重疊語(yǔ)音幀需要保留的部分和排序在后的同步機(jī)器語(yǔ)音單元所包括的拼接重疊語(yǔ)音幀需要保留的部分,使得拼接后的聲學(xué)參數(shù)過渡更符合自然語(yǔ)音。

在本實(shí)施例中,以相鄰的同步機(jī)器語(yǔ)音單元各自的與拼接重疊語(yǔ)音幀數(shù)對(duì)應(yīng)的語(yǔ)音幀之間的差異度為約束條件,選取相鄰的同步機(jī)器語(yǔ)音單元的拼接位置,提高了拼接位置選取的準(zhǔn)確性,使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格。

在另一個(gè)實(shí)施例中,終端可獲取從挑選出的各同步機(jī)器語(yǔ)音單元中按照hmm(hiddenmarkovmodel隱馬爾可夫模型)模型劃分出的語(yǔ)音狀態(tài),確定相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音狀態(tài)數(shù);其中,相鄰的同步機(jī)器語(yǔ)音單元各自的與拼接重疊語(yǔ)音狀態(tài)數(shù)對(duì)應(yīng)的語(yǔ)音狀態(tài)之間的差異度最小化;根據(jù)拼接重疊語(yǔ)音狀態(tài)數(shù)確定排序后的同步機(jī)器語(yǔ)音單元中相鄰的同步機(jī)器語(yǔ)音單元的拼接位置。

在一個(gè)實(shí)施例中,終端可按照以下公式確定相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀數(shù):

其中,t表示相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀數(shù),t表示相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀中第t幀,cct表示相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀中第t幀語(yǔ)音幀的差異度,表示求取t使得最小。

在一個(gè)實(shí)施例中,可由以下公式計(jì)算得到:

其中,ccδt表示相鄰的同步機(jī)器語(yǔ)音單元中拼接重疊δt幀語(yǔ)音幀時(shí)的差異度。fa,t表示相鄰的同步機(jī)器語(yǔ)音單元中排序在前的語(yǔ)音單元a所包括的拼接重疊語(yǔ)音幀中第t幀的聲學(xué)參數(shù),fb,t表示相鄰的同步機(jī)器語(yǔ)音單元中排序在后的語(yǔ)音單元b所包括的拼接重疊語(yǔ)音幀中第t幀的聲學(xué)參數(shù)。n表示計(jì)算語(yǔ)音鎮(zhèn)差異度時(shí)選取的聲學(xué)參數(shù)的個(gè)數(shù),wn表示分配給每個(gè)選取的聲學(xué)參數(shù)的權(quán)值,wt表示分配給每幀語(yǔ)音幀的權(quán)值。

在本實(shí)施例中,提供了具體用于求取使得相鄰的同步機(jī)器語(yǔ)音單元各自的與拼接重疊語(yǔ)音幀數(shù)對(duì)應(yīng)的語(yǔ)音幀之間的差異度最小的拼接重疊幀數(shù)的方法,使得拼接位置選取更準(zhǔn)確。

s606,在說話人語(yǔ)音庫(kù)中,查找與同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元。

s608,按照確定的相鄰的同步機(jī)器語(yǔ)音單元的拼接位置拼接相應(yīng)的說話人語(yǔ)音單元,得到說話人目標(biāo)語(yǔ)音。

具體地,終端在確定每個(gè)同步機(jī)器語(yǔ)音單元的拼接位置之后,將該拼接位置作為相應(yīng)的說話人語(yǔ)音單元的拼接位置,將說話人語(yǔ)音單元進(jìn)行拼接,得到說話人目標(biāo)語(yǔ)音。

在本實(shí)施例中,按照確定的拼接位置拼接相鄰的說話人語(yǔ)音單元,使得拼接過渡更自然,從而使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格。

如圖7所示為一個(gè)實(shí)施例中相鄰的說話人語(yǔ)音單元拼接的示意圖。參考圖7,該示意圖包括排序在前的說話人語(yǔ)音單元710和排序在后的說話人語(yǔ)音單元720。其中,說話人語(yǔ)音單元710包括拼接重疊部分711,拼接重疊部分711包括t幀語(yǔ)音幀,語(yǔ)音幀712為說話人語(yǔ)音單元710拼接重疊部分的第t幀。說話人語(yǔ)音單元720包括拼接重疊部分721,拼接重疊部分721包括t幀語(yǔ)音幀,語(yǔ)音幀722為說話人語(yǔ)音單元720拼接重疊部分的第t幀。語(yǔ)音單元710拼接重疊部分的第t幀與語(yǔ)音幀722為說話人語(yǔ)音單元720拼接重疊部分的第t幀重疊。

在一個(gè)實(shí)施例中,終端可在對(duì)各同步機(jī)器語(yǔ)音單元子集中的各同步機(jī)器語(yǔ)音單元,確定與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元的聲學(xué)特征差異度后,在說話人語(yǔ)音庫(kù)中獲取各同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元。終端可再將獲取的說話人語(yǔ)音單元按照所對(duì)應(yīng)的目標(biāo)文本中的讀音順序進(jìn)行排列組合,得到多組待拼接的說話人語(yǔ)音單元序列,并確定各組待拼接的說話人語(yǔ)音單元序列中相鄰的說話人語(yǔ)音單元之間的差異度,再將各同步機(jī)器語(yǔ)音單元與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元的聲學(xué)特征差異度作為相應(yīng)的說話人語(yǔ)音單元與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元的聲學(xué)特征差異度。

終端可將各組待拼接的說話人語(yǔ)音單元序列中各說話人語(yǔ)音單元序列與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元的聲學(xué)特征差異度加權(quán)求和,得到各組待拼接的說話人語(yǔ)音單元序列對(duì)應(yīng)的目標(biāo)代價(jià)。再將各組待拼接的說話人語(yǔ)音單元序列中相鄰的說話人語(yǔ)音單元之間的差異度加權(quán)求和,得到各組待拼接的說話人語(yǔ)音單元序列對(duì)應(yīng)的拼接代價(jià)。

終端在分別得到各組待拼接的說話人語(yǔ)音單元序列對(duì)應(yīng)的目標(biāo)代價(jià)和拼接代價(jià)后,通過動(dòng)態(tài)規(guī)劃的方法確定使得目標(biāo)代價(jià)和拼接代價(jià)之和最小的拼接方式。其中,動(dòng)態(tài)規(guī)劃是數(shù)據(jù)計(jì)算方法上一種用于求解最優(yōu)解的方法。

在一個(gè)實(shí)施例中,步驟s302之前,語(yǔ)音轉(zhuǎn)換方法還包括構(gòu)建異步機(jī)器語(yǔ)音庫(kù)和同步機(jī)器語(yǔ)音庫(kù)的過程,具體包括:收集說話人歷史語(yǔ)音;識(shí)別說話人歷史語(yǔ)音對(duì)應(yīng)的文本內(nèi)容;根據(jù)識(shí)別得到的文本內(nèi)容生成異步機(jī)器語(yǔ)音單元序列;根據(jù)生成的異步機(jī)器語(yǔ)音單元序列構(gòu)建異步機(jī)器語(yǔ)音庫(kù);獲取收集的說話人歷史語(yǔ)音的韻律特征;根據(jù)識(shí)別得到的文本內(nèi)容和獲取的韻律特征,生成同步機(jī)器語(yǔ)音單元序列;根據(jù)生成的同步機(jī)器語(yǔ)音單元序列構(gòu)建同步機(jī)器語(yǔ)音庫(kù)。

參考圖8,圖8示出了本實(shí)施例中構(gòu)建語(yǔ)音庫(kù)的邏輯框圖。具體地,終端可事先收集說話人歷史語(yǔ)音,收集的說話人歷史語(yǔ)音可以是通過聲音采集裝置采集的語(yǔ)音波形。終端可對(duì)各歷史語(yǔ)音波形用語(yǔ)音識(shí)別系統(tǒng)進(jìn)行語(yǔ)音單元?jiǎng)澐?,得到相?yīng)的說話人語(yǔ)音單元序列,以及各單元波形;再用語(yǔ)音識(shí)別系統(tǒng)識(shí)別出各說話人語(yǔ)音單元序列對(duì)應(yīng)的文本內(nèi)容,并標(biāo)注出各說話人語(yǔ)音單元序列中每個(gè)語(yǔ)音單元的讀音和時(shí)長(zhǎng)分布,得到各語(yǔ)音單元的單元讀音。終端可根據(jù)得到的單元讀音、各單元波形和各說話人語(yǔ)音單元序列構(gòu)建說話人語(yǔ)音庫(kù)。

終端可根據(jù)各語(yǔ)音單元的讀音標(biāo)注,用自動(dòng)語(yǔ)音合成系統(tǒng)合成出與各語(yǔ)音單元讀音相同的異步機(jī)器語(yǔ)音單元序列,并得到與異步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的語(yǔ)音波形,和通過聲學(xué)模型輸出與異步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的聲學(xué)參數(shù)。進(jìn)一步地,終端可將異步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的語(yǔ)音波形和聲學(xué)參數(shù)按照異步機(jī)器語(yǔ)音單元進(jìn)行劃分,得到與各異步機(jī)器語(yǔ)音單元對(duì)應(yīng)的單元波形和單元聲學(xué)參數(shù),再根據(jù)單元讀音、各單元波形、各單元聲學(xué)參數(shù)以及各異步機(jī)器語(yǔ)音單元序列構(gòu)建異步機(jī)器語(yǔ)音庫(kù)。

終端可再根據(jù)各語(yǔ)音單元的讀音標(biāo)注和時(shí)長(zhǎng)分布標(biāo)注,用自動(dòng)語(yǔ)音合成系統(tǒng)合成出與各語(yǔ)音單元讀音與時(shí)長(zhǎng)分布均相同的同步機(jī)器語(yǔ)音單元序列,并得到與同步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的語(yǔ)音波形,和通過聲學(xué)模型輸出與同步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的聲學(xué)參數(shù)。進(jìn)一步地,終端可將同步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的語(yǔ)音波形和聲學(xué)參數(shù)按照同步機(jī)器語(yǔ)音單元進(jìn)行劃分,得到與各同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的單元波形和單元聲學(xué)參數(shù),再根據(jù)單元讀音、各單元波形、各單元聲學(xué)參數(shù)以及各同步機(jī)器語(yǔ)音單元序列構(gòu)建同步機(jī)器語(yǔ)音庫(kù)。

更進(jìn)一步地,終端可將說話人語(yǔ)音庫(kù)中的說話人語(yǔ)音單元序列、異步機(jī)器語(yǔ)音庫(kù)中的異步機(jī)器語(yǔ)音單元序列和同步機(jī)器語(yǔ)音庫(kù)中的同步機(jī)器語(yǔ)音單元序列按照對(duì)應(yīng)的文本內(nèi)容對(duì)齊,合并構(gòu)建平行語(yǔ)音庫(kù)。

舉例說明,說話人歷史語(yǔ)音(廣東口音)為:“他-在灰機(jī)上-拿著一朵-鮮發(fā)”,識(shí)別得到的文本內(nèi)容為:“他在飛機(jī)上拿著一朵鮮花”,合成的異步機(jī)器語(yǔ)音單元序列為:“他在-飛機(jī)上-拿著-一朵鮮花”,讀音與文本內(nèi)容讀音相同,韻律特征符合機(jī)器韻律特征;合成的同步機(jī)器語(yǔ)音單元序列為:“他-在飛機(jī)上-拿著一朵-鮮花”,讀音與文本內(nèi)容讀音相同,韻律特征符合說話人韻律特征。其中,“-”表示語(yǔ)音之間的韻律停頓。

在本實(shí)施例中,構(gòu)建包括與說話人語(yǔ)音庫(kù)中說話人語(yǔ)音單元序列文本內(nèi)容相同的異步機(jī)器語(yǔ)音單元序列的異步機(jī)器語(yǔ)音庫(kù),建立說話人語(yǔ)音風(fēng)格和機(jī)器語(yǔ)音風(fēng)格的對(duì)應(yīng)關(guān)系,使得對(duì)目標(biāo)文本的韻律特征選取更為準(zhǔn)確性。構(gòu)建包括與說話人語(yǔ)音庫(kù)中說話人語(yǔ)音單元序列文本內(nèi)容相同,且韻律特征相同的同步機(jī)器語(yǔ)音單元序列的同步機(jī)器語(yǔ)音庫(kù),建立韻律特征相同的機(jī)器語(yǔ)音與說話人語(yǔ)音的對(duì)應(yīng)關(guān)系,使得對(duì)用于拼接得到說話人目標(biāo)語(yǔ)音的說話人語(yǔ)音單元的選取更為準(zhǔn)確性。

圖9示出了一個(gè)實(shí)施例中語(yǔ)音轉(zhuǎn)換方法的流邏輯框圖。如圖9所示,終端可事先收集說話人歷史語(yǔ)音,在對(duì)說話人歷史語(yǔ)音進(jìn)行語(yǔ)音識(shí)別,得到說話人語(yǔ)音庫(kù)。再標(biāo)注出每個(gè)語(yǔ)音單元的讀音和時(shí)長(zhǎng)分布,采用tts參數(shù)合成系統(tǒng)根據(jù)讀音標(biāo)注合成異步機(jī)器語(yǔ)音單元序列構(gòu)建異步機(jī)器語(yǔ)音庫(kù),采用tts參數(shù)合成系統(tǒng)根據(jù)讀音標(biāo)注和時(shí)長(zhǎng)分布標(biāo)注合成同步機(jī)器語(yǔ)音單元序列構(gòu)建同步機(jī)器語(yǔ)音庫(kù)。

終端可獲取目標(biāo)文本,根據(jù)目標(biāo)文本合成第一機(jī)器語(yǔ)音,從異步機(jī)器語(yǔ)音庫(kù)中,篩選出韻律特征與第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列。在同步機(jī)器語(yǔ)音庫(kù)中,查找與異步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的同步機(jī)器語(yǔ)音單元序列,根據(jù)同步機(jī)器語(yǔ)音單元序列的韻律特征,合成與目標(biāo)文本對(duì)應(yīng)的第二機(jī)器語(yǔ)音;終端可再根據(jù)第二機(jī)器語(yǔ)音的聲學(xué)特征,從同步機(jī)器語(yǔ)音庫(kù)中挑選與第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元;再?gòu)恼f話人語(yǔ)音庫(kù)中,挑選與同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元;拼接挑選出的說話人語(yǔ)音單元,得到說話人目標(biāo)語(yǔ)音。其中,由于同步機(jī)器語(yǔ)音單元序列與說話人語(yǔ)音單元序列的時(shí)長(zhǎng)分布相同,故可將同步機(jī)器語(yǔ)音單元序列的韻律特征作為說話人語(yǔ)音單元序列的韻律特征。

如圖10所示,在一個(gè)實(shí)施例中,提供了一種語(yǔ)音轉(zhuǎn)換裝置1000,包括:獲取模塊1001、第一合成模塊1002、第一篩選模塊1003、查找模塊1004、第二合成模塊1005、第二篩選模塊1006和拼接模塊1007。

獲取模塊1001,用于獲取目標(biāo)文本。

第一合成模塊1002,用于合成與目標(biāo)文本對(duì)應(yīng)的第一機(jī)器語(yǔ)音。

第一篩選模塊1003,用于從異步機(jī)器語(yǔ)音庫(kù)中,篩選出韻律特征與第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列。

查找模塊1004,用于在同步機(jī)器語(yǔ)音庫(kù)中,查找與異步機(jī)器語(yǔ)音單元序列對(duì)應(yīng)的同步機(jī)器語(yǔ)音單元序列。

第二合成模塊1005,用于根據(jù)同步機(jī)器語(yǔ)音單元序列的韻律特征,合成與目標(biāo)文本對(duì)應(yīng)的第二機(jī)器語(yǔ)音。

第二篩選模塊1006,用于從同步機(jī)器語(yǔ)音庫(kù)中,挑選與第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元。

拼接模塊1007,用于將說話人語(yǔ)音庫(kù)中與同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元拼接,得到說話人目標(biāo)語(yǔ)音。

其中,同步機(jī)器語(yǔ)音庫(kù)、異步機(jī)器語(yǔ)音庫(kù)和說話人語(yǔ)音庫(kù)的文本內(nèi)容相同,且說話人語(yǔ)音庫(kù)與同步機(jī)器語(yǔ)音庫(kù)的韻律特征相匹配。

上述語(yǔ)音合成裝置1000,用于拼接得到說話人目標(biāo)語(yǔ)音的語(yǔ)音單元選自說話人語(yǔ)音庫(kù),拼接轉(zhuǎn)換的語(yǔ)音保留了說話人的音色。而且利用異步機(jī)器語(yǔ)音庫(kù)中符合機(jī)器韻律特征的異步機(jī)器語(yǔ)音單元序列,與同步機(jī)器語(yǔ)音庫(kù)中符合說話人韻律特征的同步機(jī)器語(yǔ)音單元序列的對(duì)應(yīng)關(guān)系,在合成符合機(jī)器韻律特征的第一機(jī)器語(yǔ)音后,根據(jù)對(duì)應(yīng)關(guān)系確定符合說話人語(yǔ)音風(fēng)格的韻律特征。再根據(jù)該韻律特征合成第二機(jī)器語(yǔ)音,以第二機(jī)器語(yǔ)音的聲學(xué)特征為依據(jù)從同步機(jī)器語(yǔ)音庫(kù)中挑選與第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元,再將說話人語(yǔ)音庫(kù)中與挑選出的同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元拼接,得到說話人目標(biāo)語(yǔ)音,保留了說話人的韻律特征。這樣即又保留了說話人音色,又保留了說話人的韻律特征,使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格,從而提高了語(yǔ)音轉(zhuǎn)換效果。

在一個(gè)實(shí)施例中,第一篩選模塊1003還用于按照第一機(jī)器語(yǔ)音,從異步機(jī)器語(yǔ)音庫(kù)中獲取候選異步機(jī)器語(yǔ)音單元序列;確定候選異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音的韻律特征差異度;將對(duì)應(yīng)最小韻律特征差異度的候選異步機(jī)器語(yǔ)音單元序列,作為與第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列。

在本實(shí)施例中,以異步機(jī)器語(yǔ)音庫(kù)中異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音計(jì)算韻律特征差異度為約束條件,選取與第一機(jī)器語(yǔ)音的韻律特征匹配的異步機(jī)器語(yǔ)音單元序列,提高了韻律特征選取的準(zhǔn)確性,使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格。

在一個(gè)實(shí)施例中,第一篩選模塊1003還用于確定第一機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)音單元的數(shù)量;從異步機(jī)器語(yǔ)音庫(kù)中,獲取包括的異步機(jī)器語(yǔ)音單元的數(shù)量與確定的數(shù)量相等的候選異步機(jī)器語(yǔ)音單元序列。

在本實(shí)施例中,以第一機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)音單元的數(shù)量為依據(jù)選取候選異步機(jī)器語(yǔ)音單元序列進(jìn)行韻律特征差異度的計(jì)算,提高了韻律特征差異度的計(jì)算結(jié)果的可靠性。

在一個(gè)實(shí)施例中,第一篩選模塊1003還用于遍歷異步機(jī)器語(yǔ)音庫(kù)所包括的異步機(jī)器語(yǔ)音單元序列;當(dāng)遍歷至的異步機(jī)器語(yǔ)音單元序列所包括的異步機(jī)器語(yǔ)音單元的數(shù)量小于確定的數(shù)量時(shí),則繼續(xù)遍歷;當(dāng)遍歷至的異步機(jī)器語(yǔ)音單元序列所包括的異步機(jī)器語(yǔ)音單元的數(shù)量等于確定的數(shù)量時(shí),則將遍歷至的異步機(jī)器語(yǔ)音單元序列作為候選異步機(jī)器語(yǔ)音單元序列;當(dāng)遍歷至的異步機(jī)器語(yǔ)音單元序列所包括的異步機(jī)器語(yǔ)音單元的數(shù)量大于確定的數(shù)量時(shí),則將遍歷至的異步機(jī)器語(yǔ)音單元序列,按照所包括的異步機(jī)器語(yǔ)音單元的順序以及確定的數(shù)量,拆分出候選異步機(jī)器語(yǔ)音單元序列。

在本實(shí)施例中,對(duì)所包括的異步機(jī)器語(yǔ)音單元的數(shù)量大于第二機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)音單元的數(shù)量的異步機(jī)器語(yǔ)音單元序列,按照所包括的異步機(jī)器語(yǔ)音單元的順序以及確定的數(shù)量,拆分出異步機(jī)器語(yǔ)音單元子序列作為候選異步機(jī)器語(yǔ)音單元序列,既符合自然語(yǔ)言的連貫性,保證了韻律特征差異度的計(jì)算結(jié)果的可靠性,又提高了異步機(jī)器語(yǔ)音庫(kù)中語(yǔ)料的利用率。

在一個(gè)實(shí)施例中,第一篩選模塊1003還用于從第一機(jī)器語(yǔ)音中劃分出機(jī)器語(yǔ)音單元;根據(jù)候選異步機(jī)器語(yǔ)音單元序列所包括的各異步機(jī)器語(yǔ)音單元與各自對(duì)應(yīng)的劃分出的機(jī)器語(yǔ)音單元之間的韻律參數(shù)差異值,生成候選異步機(jī)器語(yǔ)音單元序列與第一機(jī)器語(yǔ)音的韻律特征差異度;其中,韻律參數(shù)差異值包括時(shí)長(zhǎng)差異值、基頻變化率差異值、聲學(xué)參數(shù)的時(shí)長(zhǎng)分布差異和基頻變化率的概率分布差異中的至少一種。

在本實(shí)施例中,通過候選異步機(jī)器語(yǔ)音單元序列所包括的各異步機(jī)器語(yǔ)音單元與各自對(duì)應(yīng)的劃分出的機(jī)器語(yǔ)音單元之間的各韻律參數(shù)差異值來計(jì)算韻律特征差異度,利用影響韻律特征的各參數(shù)進(jìn)行計(jì)算,提高了韻律特征匹配的準(zhǔn)確性。

在一個(gè)實(shí)施例中,第二篩選模塊1006還用于從第二機(jī)器語(yǔ)音中劃分出機(jī)器語(yǔ)音單元;確定劃分出的各機(jī)器語(yǔ)音單元的讀音特征;從同步機(jī)器語(yǔ)音庫(kù)中,篩選讀音特征與劃分出的各機(jī)器語(yǔ)音單元的讀音特征匹配的同步機(jī)器語(yǔ)音單元子集;對(duì)于各同步機(jī)器語(yǔ)音單元子集中的各同步機(jī)器語(yǔ)音單元,確定與相應(yīng)的劃分出的機(jī)器語(yǔ)音單元的聲學(xué)特征差異度;挑選出對(duì)應(yīng)最小聲學(xué)特征差異度的同步機(jī)器語(yǔ)音單元,作為與第二機(jī)器語(yǔ)音聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元。

在本實(shí)施例中,以同步機(jī)器語(yǔ)音庫(kù)中同步機(jī)器語(yǔ)音單元與第二機(jī)器語(yǔ)音所包括的機(jī)器語(yǔ)言單元計(jì)算的聲學(xué)特征差異度為約束條件,選取與第二機(jī)器語(yǔ)音的聲學(xué)特征匹配的同步機(jī)器語(yǔ)音單元,提高了聲學(xué)特征選取的準(zhǔn)確性,使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格。

在一個(gè)實(shí)施例中,第二篩選模塊1006還用于確定各同步機(jī)器語(yǔ)音單元子集中各同步機(jī)器語(yǔ)音單元的聲學(xué)參數(shù);確定劃分出的各機(jī)器語(yǔ)音單元的聲學(xué)參數(shù);對(duì)于各同步機(jī)器語(yǔ)音單元和相應(yīng)的劃分出的機(jī)器語(yǔ)音單元,計(jì)算相應(yīng)的聲學(xué)參數(shù)的差異值;根據(jù)差異值,生成與差異值正相關(guān)的聲學(xué)特征差異度。

在本實(shí)施例中,通過同步機(jī)器語(yǔ)音單元與各自對(duì)應(yīng)的劃分出的機(jī)器語(yǔ)音單元之間的各聲學(xué)參數(shù)差異值來計(jì)算聲學(xué)特征差異度,利用影響聲學(xué)特征的各參數(shù)進(jìn)行計(jì)算,提高了聲學(xué)特征匹配的準(zhǔn)確性。

在一個(gè)實(shí)施例中,拼接模塊1007還用于將同步機(jī)器語(yǔ)音單元,按照所對(duì)應(yīng)的目標(biāo)文本中的讀音順序排序;確定排序后的同步機(jī)器語(yǔ)音單元中相鄰的同步機(jī)器語(yǔ)音單元的拼接位置;在說話人語(yǔ)音庫(kù)中,查找與同步機(jī)器語(yǔ)音單元對(duì)應(yīng)的說話人語(yǔ)音單元;按照確定的相鄰的同步機(jī)器語(yǔ)音單元的拼接位置拼接相應(yīng)的說話人語(yǔ)音單元,得到說話人目標(biāo)語(yǔ)音。

在本實(shí)施例中,按照確定的拼接位置拼接相鄰的說話人語(yǔ)音單元,使得拼接過渡更自然,從而使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格。

在一個(gè)實(shí)施例中,拼接模塊1007還用于獲取從挑選出的各同步機(jī)器語(yǔ)音單元?jiǎng)澐殖龅恼Z(yǔ)音幀;確定相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀數(shù);其中,相鄰的同步機(jī)器語(yǔ)音單元各自的與拼接重疊語(yǔ)音幀數(shù)對(duì)應(yīng)的語(yǔ)音幀之間的差異度最小化;根據(jù)拼接重疊語(yǔ)音幀數(shù)確定排序后的同步機(jī)器語(yǔ)音單元中相鄰的同步機(jī)器語(yǔ)音單元的拼接位置。

在本實(shí)施例中,以相鄰的說話人語(yǔ)音單元各自的與拼接重疊語(yǔ)音幀數(shù)對(duì)應(yīng)的語(yǔ)音幀之間的差異度為約束條件,選取相鄰的說話人語(yǔ)音單元的拼接位置,提高了拼接位置選取的準(zhǔn)確性,使得轉(zhuǎn)換得到的語(yǔ)音更自然,更符合需求的說話人的語(yǔ)音風(fēng)格。

在一個(gè)實(shí)施例中,拼接模塊1007還用于按照以下公式確定相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀數(shù):

其中,t表示相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀數(shù),t表示相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀中第t幀,cct表示相鄰的同步機(jī)器語(yǔ)音單元的拼接重疊語(yǔ)音幀中第t幀語(yǔ)音幀的差異度,表示求取t使得最小。

在本實(shí)施例中,提供了具體用于求取使得相鄰的同步機(jī)器語(yǔ)音單元各自的與拼接重疊語(yǔ)音幀數(shù)對(duì)應(yīng)的語(yǔ)音幀之間的差異度最小的拼接重疊幀數(shù)的方法,使得拼接位置選取更準(zhǔn)確。

如圖11所示,在一個(gè)實(shí)施例中,語(yǔ)音合成裝置1000還包括語(yǔ)音庫(kù)創(chuàng)建模塊1008。

語(yǔ)音庫(kù)創(chuàng)建模塊1008,用于收集說話人歷史語(yǔ)音;識(shí)別說話人歷史語(yǔ)音對(duì)應(yīng)的文本內(nèi)容;根據(jù)識(shí)別得到的文本內(nèi)容生成異步機(jī)器語(yǔ)音單元序列;根據(jù)生成的異步機(jī)器語(yǔ)音單元序列構(gòu)建異步機(jī)器語(yǔ)音庫(kù);獲取收集的說話人歷史語(yǔ)音的韻律特征;根據(jù)識(shí)別得到的文本內(nèi)容和獲取的韻律特征,生成同步機(jī)器語(yǔ)音單元序列;根據(jù)生成的同步機(jī)器語(yǔ)音單元序列構(gòu)建同步機(jī)器語(yǔ)音庫(kù)。

在本實(shí)施例中,構(gòu)建包括與說話人語(yǔ)音庫(kù)中說話人語(yǔ)音單元序列文本內(nèi)容相同的異步機(jī)器語(yǔ)音單元序列的異步機(jī)器語(yǔ)音庫(kù),建立說話人語(yǔ)音風(fēng)格和機(jī)器語(yǔ)音風(fēng)格的對(duì)應(yīng)關(guān)系,使得對(duì)目標(biāo)文本的韻律特征選取更為準(zhǔn)確性。構(gòu)建包括與說話人語(yǔ)音庫(kù)中說話人語(yǔ)音單元序列文本內(nèi)容相同,且韻律特征相同的同步機(jī)器語(yǔ)音單元序列的同步機(jī)器語(yǔ)音庫(kù),建立韻律特征相同的機(jī)器語(yǔ)音與說話人語(yǔ)音的對(duì)應(yīng)關(guān)系,使得對(duì)用于拼接得到說話人目標(biāo)語(yǔ)音的說話人語(yǔ)音單元的選取更為準(zhǔn)確性。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一非易失性計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(read-onlymemory,rom)等。

以上實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡(jiǎn)潔,未對(duì)上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。

以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1