語音合成方法及系統(tǒng)與流程

文檔序號：12368716閱讀：236來源：國知局

本發(fā)明涉及語音合成
技術(shù)領(lǐng)域：
，具體涉及一種語音合成方法及系統(tǒng)。
背景技術(shù)：
：實現(xiàn)人機之間人性化、智能化的有效交互，構(gòu)建高效自然的人機交流環(huán)境，已經(jīng)成為當前信息技術(shù)應(yīng)用和發(fā)展的迫切需求。語音合成技術(shù)作為人機交流的重要環(huán)節(jié)，可以將文字信息轉(zhuǎn)化為自然的語音信號，賦予計算機像人一樣自如說話的能力，改變了傳統(tǒng)通過錄音回放實現(xiàn)機器開口說話的繁瑣操作。為了使合成語音更加自然，更符合人的主觀聽感，出現(xiàn)了融合人主觀聽感的語音合成方法，具體融合方法一般是分析人工主觀測聽結(jié)果來提升合成語音的自然度。現(xiàn)有的融合人主觀聽感的語音合成方法一般是通過預先收集大量合成語音及相應(yīng)人工測聽的反饋結(jié)果，訓練分類模型，分類標簽一般為合成正確數(shù)據(jù)與合成錯誤數(shù)據(jù)，利用所述分類模型找到待合成文本多組備選合成語音中最符合人聽感的一組合成語音，作為待合成文本的最優(yōu)合成結(jié)果?？梢姡龇椒ㄖ饕蕾嚪诸惸Ｐ蛯⑷斯y聽的反饋結(jié)果融合到合成語音中。然而，由于現(xiàn)有合成系統(tǒng)合成語音時，合成錯誤的語音單元數(shù)遠遠少于合成正確的語音單元數(shù)，即訓練分類模型的兩類訓練數(shù)據(jù)分布不均衡，從而導致訓練得到的分類模型具有傾向性，將錯誤合成單元傾向正確合成單元，影響待合成文本最優(yōu)合成結(jié)果的挑選。因此，如何準確地將人工主觀聽感融合到待合成文本的合成結(jié)果中，是提升語音合成效果亟待解決的問題。技術(shù)實現(xiàn)要素：本發(fā)明實施例提供一種語音合成方法及系統(tǒng)，以準確地將人工主觀聽感融合到待合成文本的合成結(jié)果中，提升語音合成效果。為此，本發(fā)明實施例提供如下技術(shù)方案：一種語音合成方法，包括以下步驟：(1)接收待合成文本；(2)對所述待合成文本進行預處理，得到所述待合成文本的待合成單元序列及待合成單元的上下文相關(guān)信息；(3)根據(jù)所述待合成單元的上下文相關(guān)信息從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元；(4)依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)；(5)獲取測聽人員對所述備選語音數(shù)據(jù)的測聽結(jié)果；(6)根據(jù)所述測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型；(7)根據(jù)所述修正模型及所述待合成單元的上下文信息重新從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元；(8)依序?qū)⒅匦芦@取的所有待合成單元的最優(yōu)備選語音單元進行拼接，得到優(yōu)化后的語音數(shù)據(jù)；(9)將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出。優(yōu)選地，所述根據(jù)所述待合成單元的上下文相關(guān)信息從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元包括：從音庫中獲取所述待合成單元的備選語音單元序列；提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；計算在所述上下文相關(guān)信息表征的環(huán)境下，備選語音單元的各聲學特征相對目標模型的似然值的和，得到第一計算值；選取對應(yīng)最大第一計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。優(yōu)選地，所述測聽結(jié)果包括：有錯誤語音數(shù)據(jù)；所述根據(jù)所述測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型包括：根據(jù)所述錯誤語音數(shù)據(jù)訓練對應(yīng)不同聲學特征的錯誤空間模型；所述根據(jù)所述修正模型及所述待合成單元的上下文信息重新從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元包括：從音庫中獲取所述待合成單元的備選語音單元序列；提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值減去各聲學特征相對所述錯誤空間模型的似然值的差值的總和，得到第二計算值；選取對應(yīng)最大第二計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。優(yōu)選地，所述測聽結(jié)果包括：有錯誤語音數(shù)據(jù)和無錯誤語音數(shù)據(jù)；所述根據(jù)所述測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型包括：根據(jù)所述有錯誤語音數(shù)據(jù)訓練對應(yīng)不同聲學特征的錯誤空間模型、以及根據(jù)所述無錯誤語音數(shù)據(jù)訓練對應(yīng)不同聲學特征的正確空間模型；所述根據(jù)所述修正模型及所述待合成單元的上下文信息重新從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元包括：從音庫中獲取所述待合成單元的備選語音單元序列；提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值、加上相對正確空間模型的似然值、并減去相對錯誤空間模型的似然值的總和后，得到第三計算值；選取對應(yīng)最大第三計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。優(yōu)選地，所述測聽結(jié)果包括：有錯誤語音數(shù)據(jù)及其錯誤類型，所述錯誤類型包括以下任意一種或多種：發(fā)音錯誤、音高錯誤、語速錯誤、發(fā)音平滑性錯誤、音高平滑性錯誤；所述根據(jù)所述測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型包括：根據(jù)相同錯誤類型的有錯誤語音數(shù)據(jù)訓練對應(yīng)該錯誤類型的錯誤空間模型；所述根據(jù)所述修正模型及所述待合成單元的上下文信息重新從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元包括：從音庫中獲取所述待合成單元的備選語音單元序列；提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值減去各聲學特征相對每類錯誤空間模型的似然值的差值的和，得到第四計算值；選取對應(yīng)最大第四計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。優(yōu)選地，在步驟(8)和步驟(9)之間還包括：獲取測聽人員對所述優(yōu)化后的語音數(shù)據(jù)的測聽結(jié)果；判斷所述測聽結(jié)果是否達到要求；如果達到，則執(zhí)行步驟(9)；否則，返回步驟(6)。一種語音合成系統(tǒng)，包括：接收模塊，用于接收待合成文本；預處理模塊，用于對所述待合成文本進行預處理，得到所述待合成文本的待合成單元序列及待合成單元的上下文相關(guān)信息；第一挑選模塊，用于根據(jù)所述待合成單元的上下文相關(guān)信息從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元；拼接模塊，用于依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)；測聽結(jié)果獲取模塊，用于獲取測聽人員對所述備選語音數(shù)據(jù)的測聽結(jié)果；修正模型訓練模塊，用于根據(jù)所述測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型；第二挑選模塊，用于根據(jù)所述修正模型及所述待合成單元的上下文信息重新從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元；所述拼接模塊，還用于依序?qū)⒅匦芦@取的所有待合成單元的最優(yōu)備選語音單元進行拼接，得到優(yōu)化后的語音數(shù)據(jù)；輸出模塊，用于將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出。優(yōu)選地，所述第一挑選模塊包括：備選語音單元獲取單元，用于從音庫中獲取所述待合成單元的備選語音單元序列；特征提取單元，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；第一計算單元，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，備選語音單元的各聲學特征相對目標模型的似然值的和，得到第一計算值；選取單元，用于選取對應(yīng)最大第一計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。優(yōu)選地，所述測聽結(jié)果包括：有錯誤語音數(shù)據(jù)；所述修正模型訓練模塊，具體用于根據(jù)所述錯誤語音數(shù)據(jù)訓練對應(yīng)不同聲學特征的錯誤空間模型；所述第二挑選模塊包括：備選語音單元獲取單元，用于從音庫中獲取所述待合成單元的備選語音單元序列；特征提取單元，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；第二計算單元，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值減去各聲學特征相對所述錯誤空間模型的似然值的差值的總和，得到第二計算值；選取單元，用于選取對應(yīng)最大第二計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。優(yōu)選地，所述測聽結(jié)果包括：有錯誤語音數(shù)據(jù)和無錯誤語音數(shù)據(jù)；所述修正模型訓練模塊，具體用于根據(jù)所述有錯誤語音數(shù)據(jù)訓練對應(yīng)不同聲學特征的錯誤空間模型、以及根據(jù)所述無錯誤語音數(shù)據(jù)訓練對應(yīng)不同聲學特征的正確空間模型；所述第二挑選模塊包括：備選語音單元獲取單元，用于從音庫中獲取所述待合成單元的備選語音單元序列；特征提取單元，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；第三計算單元，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值、加上相對正確空間模型的似然值、并減去相對錯誤空間模型的似然值的總和后，得到第三計算值；選取單元，用于選取對應(yīng)最大第三計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。優(yōu)選地，所述測聽結(jié)果包括：有錯誤語音數(shù)據(jù)及其錯誤類型，所述錯誤類型包括以下任意一種或多種：發(fā)音錯誤、音高錯誤、語速錯誤、發(fā)音平滑性錯誤、音高平滑性錯誤；所述修正模型訓練模塊，具體用于根據(jù)相同錯誤類型的有錯誤語音數(shù)據(jù)訓練對應(yīng)該錯誤類型的錯誤空間模型；所述第二挑選模塊包括：備選語音單元獲取單元，用于從音庫中獲取所述待合成單元的備選語音單元序列；特征提取單元，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；第三計算單元，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值減去各聲學特征相對每類錯誤空間模型的似然值的差值的和，得到第四計算值；選取單元，用于選取對應(yīng)最大第四計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。優(yōu)選地，所述測聽結(jié)果獲取模塊，還用于獲取測聽人員對所述優(yōu)化后的語音數(shù)據(jù)的測聽結(jié)果；所述系統(tǒng)還包括：判斷模塊，用于判斷所述測聽結(jié)果是否達到要求；如果達到，則觸發(fā)所述輸出模塊將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出；如果未達到，則觸發(fā)所述修正模型訓練模塊繼續(xù)根據(jù)所述測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型。本發(fā)明實施例提供的語音合成方法及系統(tǒng)，對于待合成文本，首先從音庫中挑選出待合成單元序列中各待合成單元的最優(yōu)備選語音單元，并將其進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)。然后根據(jù)測聽人員對備選語音數(shù)據(jù)的測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型；再根據(jù)修正模型及待合成單元的上下文信息重新從音庫中獲取各待合成單元的最優(yōu)備選語音單元，并進行拼接得到優(yōu)化后的語音數(shù)據(jù)；將所述優(yōu)化后的語音數(shù)據(jù)作為待合成文本的合成語音數(shù)據(jù)輸出。由于將人的主觀聽感直接融合到了最優(yōu)備選語音單元的挑選中，因而使最終得到的合成語音數(shù)據(jù)更符合人的主觀聽感，有效地提升了語音合成效果，而且避免了現(xiàn)有技術(shù)中由于測聽結(jié)果中數(shù)據(jù)不均衡對語音單元挑選產(chǎn)生的不良影響。附圖說明為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實施例語音合成方法的一種流程圖；圖2是本發(fā)明實施例中利用修正模型獲取待合成單元的最優(yōu)備選語音單元的一種實現(xiàn)流程圖；圖3是本發(fā)明實施例中利用修正模型獲取待合成單元的最優(yōu)備選語音單元的另一種實現(xiàn)流程圖；圖4是本發(fā)明實施例中利用修正模型獲取待合成單元的最優(yōu)備選語音單元的另一種實現(xiàn)流程圖；圖5是本發(fā)明實施例語音合成系統(tǒng)的一種結(jié)構(gòu)示意圖；圖6是本發(fā)明實施例語音合成系統(tǒng)的另一種結(jié)構(gòu)示意圖。具體實施方式為了使本
技術(shù)領(lǐng)域：
的人員更好地理解本發(fā)明實施例的方案，下面結(jié)合附圖和實施方式對本發(fā)明實施例作進一步的詳細說明。如圖1所示，是本發(fā)明實施例語音合成方法的流程圖，包括以下步驟：步驟101，接收待合成文本。步驟102，對所述待合成文本進行預處理，得到所述待合成文本的待合成單元序列及待合成單元的上下文相關(guān)信息。所述預處理主要包括：分詞、詞性標注及韻律分析。以中文為例，待合成文本“發(fā)生在我們身邊的愛情故事”的韻律分析結(jié)果如下：發(fā)生在*我們*身邊的#愛情*故事；fa1sheng1zai4*wo3men0*shen1bian1de0#ai4qing2gu4shi1；其中，第一行為韻律行，“*”表示韻律詞邊界，“#”表示韻律短語邊界，不限于這種表示形式；第二行為拼音行，數(shù)字表示聲調(diào)信息，不限于這種表示形式，拼音行中的聲母和韻母組成的序列即為待合成單元序列。利用所述預處理結(jié)果即可獲得待合成單元的上下文相關(guān)信息，如待合成單元在句子中的位置、待合成單元的詞性信息等。步驟103，根據(jù)所述待合成單元的上下文相關(guān)信息從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元。具體地，首先需要從音庫中獲取各待合成單元的備選語音單元序列，一個備選語音單元序列中可以有一個或多個備選語音單元，然后根據(jù)備選語音單元的各聲學特征相對目標模型的似然值的和，從這些備選語音單元中挑選出一個最優(yōu)備選語音單元。在挑選最優(yōu)備選語音單元時，挑選準則可以依照現(xiàn)有技術(shù)，即依照每個待合成單元的備選語音單元在所述上下文相關(guān)信息表征的環(huán)境下相對目標模型的似然值進行挑選，挑選出似然值最大的備選語音單元作為最優(yōu)備選語音單元。在本發(fā)明實施例中，將備選語音單元的各聲學特征在所述上下文相關(guān)信息表征的環(huán)境下相對目標模型的似然值的和作為該備選語音單元與目標模型的似然值，為了描述方便，將其稱為第一計算值。為了描述方便，將挑選出的待合成單元序列中待合成單元的最優(yōu)備選語音單元序列表示為U*={U1*,U2*,...,UN*}.]]>假設(shè)C＝{c1,c2,...,cn,...,cN}表示待合成文本的N個待合成單元的上下文環(huán)境信息，其中，cn為第n個待合成單元的上下文環(huán)境信息。U=u11u21...uN1u12u22...uN2............u1Ku2K...uNK]]>表示待合成文本中N個待合成單元中每個待合成單元的K個備選語音單元序列，如u12表示第1個待合成單元的第2個備選語音單元，則挑選最優(yōu)備選語音單元的計算如下所示：U*=argmaxUΣm=1MwmlogP(X(U,m)|C(U),λm)]]>其中，U*表示備選語音單元的各聲學特征與對應(yīng)的目標模型的似然值的和，為了描述方便，將其稱為第一計算值；X(U,m)表示根據(jù)備選語音單元序列U提取的備選語音單元聲學特征，M為待合成單元聲學特征的類型數(shù)，所述聲學特征的類型包括：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化中的一種或多種；logP(X(U,m)|C,λm)是給定上下文環(huán)境C時，備選語音單元聲學特征相對目標模型λm的似然值；λm為音庫中當前待合成單元聲學特征m對應(yīng) 的目標模型，所述目標模型一般可以通過預先收集數(shù)據(jù)訓練得到，用來指導備選語音單元的挑選，一般挑選語音單元的聲學參數(shù)分布越符合目標模型的分布越好，wm表示第m類聲學特征聲學模型的權(quán)值，具體取值可以根據(jù)經(jīng)驗或?qū)嶒灲Y(jié)果而定。根據(jù)上述公式，可以得到待合成單元的每個備選語音單元對應(yīng)的第一計算值，然后，選取對應(yīng)最大第一計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。步驟104，依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)。具體拼接方法與現(xiàn)有技術(shù)相同，在此不再詳述。步驟105，獲取測聽人員對所述備選語音數(shù)據(jù)的測聽結(jié)果。由于合成語音可能會出現(xiàn)不同的錯誤類型，比如，發(fā)音錯誤、音高錯誤、語速錯誤、發(fā)音平滑性錯誤、音高平滑性錯誤。相應(yīng)地，每種錯誤類型對應(yīng)的聲學模型依次為：頻譜模型、基頻模型、時長模型、頻譜連接模型、基頻連接模型。因此，在實際應(yīng)用中，根據(jù)不同的應(yīng)用需求，可以根據(jù)不同粒度的錯誤類型訓練對應(yīng)不同聲學特征的修正模型。相應(yīng)地，對測聽人員可以根據(jù)其專業(yè)水平分為不同類型，比如：初級測聽人員，高級測聽人員。其中：(1)初級測聽人員可以判斷出每句合成語音是否有錯誤，將合成語音分為有錯誤和無錯誤兩種類型。具體測聽時，可以將一般用戶作為初級測聽人員，將合成好的語音數(shù)據(jù)開放給用戶進行體驗。根據(jù)用戶體驗的反饋結(jié)果，獲取測聽結(jié)果。例如，初級測聽人員反饋結(jié)果的收集形式如下：“本句合成語音是否有錯誤？”，A：有錯誤，B：無錯誤。(2)高級測聽人員一般可以是從事語音方向相關(guān)工作的人員。高級測聽人員在初級測聽人員專業(yè)水平的基礎(chǔ)上，可以對合成語音中錯誤單元進行初步定位(例如定位到錯誤詞語單元)，同時判斷出該錯誤單元所屬的錯誤類型。如對語句“語音合成前沿技術(shù)”進行錯誤單元定位時，可以定位到句中錯誤詞語單元，以及該錯誤單元所屬的錯誤類型，例如錯誤詞語單元為“前沿”，錯誤類型為“發(fā)音錯誤”。例如，高級測聽人員測聽結(jié)果的收集形式如下：“本句合成語音是否有錯誤？”，A：有錯誤，B：無錯誤；如果有錯誤請給出錯誤位置，及錯誤類型。錯誤位置可以定位到錯誤詞語單元所在位置，或更粗粒度。錯誤類型可以包括：發(fā)音錯誤、音高錯誤、語速錯誤、發(fā)音平滑性錯誤、音高平滑性錯誤。根據(jù)測聽人員的反饋，即可得到測聽結(jié)果。步驟106，根據(jù)所述測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型。前面提到，測聽人員的測聽結(jié)果可以有不同的粒度，相應(yīng)地，在訓練修正模型時，也可以有不同的粒度，不同粒度的修正模型的訓練過程將在后面詳細描述。步驟107，根據(jù)所述修正模型及所述待合成單元的上下文信息重新從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元。步驟108，依序?qū)⒅匦芦@取的所有待合成單元的最優(yōu)備選語音單元進行拼接，得到優(yōu)化后的語音數(shù)據(jù)。步驟109，將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出。下面對不同粒度的修正模型及利用該修正模型選取待合成單元的最優(yōu)備選語音單元的過程進行詳細說明。1.針對初級測聽人員的測聽結(jié)果的修正處理由于初級測聽人員只能判定出每句合成語音是否有錯誤，因此，得到的合成語音數(shù)據(jù)分類只有兩類：即有錯誤語音數(shù)據(jù)、無錯誤語音數(shù)據(jù)。需要說明的是，在實際應(yīng)用中，可以只根據(jù)有錯誤語音數(shù)據(jù)進行修正處理，也可以同時根據(jù)有錯誤語音數(shù)據(jù)及無錯誤語音數(shù)據(jù)進行修正處理。下面對這兩種情況分別進行說明。(1)測聽結(jié)果包括：有錯誤語音數(shù)據(jù)在這種情況下，修正模型為根據(jù)所述錯誤語音數(shù)據(jù)訓練的錯誤空間模型λunatural，即利用測聽結(jié)果中的所有有錯誤語音數(shù)據(jù)訓練目標模型，將所述目標模型稱為錯誤空間模型，具體模型訓練方法與現(xiàn)有技術(shù)相同，在此不再贅述。利用上述錯誤空間模型獲取待合成單元的最優(yōu)備選語音單元的一種實現(xiàn)流程圖如圖2所示，包括以下步驟：步驟201，從音庫中獲取待合成單元的備選語音單元序列。步驟202，提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化。步驟203，計算在所述上下文相關(guān)信息表征的環(huán)境下，備選語音單元的各聲學特征相對目標模型的似然值減去各聲學特征相對所述錯誤空間模型的似然值的差值的總和，得到第二計算值。步驟204，選取對應(yīng)最大第二計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。具體計算公式如下：U*=argmaxUΣm=1Mwm(logP(X(U,m)|C(U),λm)-logP(X(U,m)|C(U),λmunatural))]]>其中，為相對第m類聲學特征的錯誤空間模型。在該實施例中，對應(yīng)不同類型聲學特征的錯誤空間模型的訓練數(shù)據(jù)相同，即所有的有錯誤語音數(shù)據(jù)。(2)測聽結(jié)果包括：有錯誤語音數(shù)據(jù)和無錯誤語音數(shù)據(jù)在這種情況下，修正模型包括：根據(jù)所述錯誤語音數(shù)據(jù)訓練的錯誤空間模型、以及根據(jù)所述無錯誤語音數(shù)據(jù)訓練的目標模型，稱為正確空間模型，具體模型訓練方法與現(xiàn)有技術(shù)相同，在此不再贅述。利用上述錯誤空間模型和正確空間模型獲取待合成單元的最優(yōu)備選語音單元的一種實現(xiàn)流程圖如圖3所示，包括以下步驟：步驟301，從音庫中獲取待合成單元的備選語音單元序列。步驟302，提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化。步驟303，計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值、加上相對正確空間模型的似然值、并減去相對錯誤空間模型的似然值的總和，得到第三計算值。步驟304，選取對應(yīng)最大第三計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。具體計算公式如下：U*=argmaxUΣm=1Mwm(logP(X(U,m)|C(U),λm)+logP(X(U,m)|C(U),λmnatural)-logP(X(U,m)|C(U),λmunatural))]]>其中，為相對第m類聲學特征的正確空間模型。在該實施例中，對應(yīng)不同聲學特征的錯誤空間模型的訓練數(shù)據(jù)相同，即所有的有錯誤語音數(shù)據(jù)，對應(yīng)不同聲學特征的正確誤空間模型的訓練數(shù)據(jù)相同，即所有的無錯誤語音數(shù)據(jù)。相應(yīng)于圖2所示實施例，該實施例可以使挑選的最優(yōu)備選語音單元更符合人的主觀聽感，使挑選的單元在遠離錯誤空間模型的同時，更靠近正確空間模型，合成語音更加平穩(wěn)。2.針對高級測聽人員的測聽結(jié)果的修正處理由于初級測聽人員只能從整體上判斷每句合成語音正確與否，并不能給出合成語音具體的錯誤類型，如發(fā)音錯誤還是音高錯誤等。但是在最優(yōu)備選語音單元的挑選中，分別使用了不同類型特征的聲學模型指導語音單元的挑選，如基頻模型、頻譜模型、時長模型等。如果將不同錯誤類型的數(shù)據(jù)統(tǒng)一建模，容易造成錯誤類型混淆，影響語音單元挑選的準確性。此外，由于一句合成語音只有少量錯誤，直接將整句作為錯誤類型數(shù)據(jù)進行錯誤空間建模，容易造成錯誤空間模型中存在大量聲學特征的正確空間分布，影響語音單元挑選的準確性。因此，可以針對高級測聽人員的測聽結(jié)果進行分析，找到每句合成語音的錯誤位置及錯誤類型，對每種具體錯誤類型數(shù)據(jù)單獨進行建模，從而得到不同類型的錯誤空間模型。也就是說，測聽結(jié)果可以包括：有錯誤語音數(shù)據(jù)、錯誤位置及其錯誤類型，所述錯誤位置可以為詞組，或更粗粒度，所述錯誤類型可以是以下任意一種或多種：發(fā)音錯誤、音高錯誤、語速錯誤、發(fā)音平滑性錯誤、音高平滑性錯誤，每種錯誤類型對應(yīng)的聲學特征分別為頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化。比如，根據(jù)每種錯誤類型的數(shù)據(jù)構(gòu)建的不同類型聲學特征的錯誤空間模型包括：頻譜錯誤空間模型基頻錯誤空間模型時長錯誤空間模型頻譜連接錯誤空間模型基頻連接錯誤空間模型如果一句合成語音只有少量合成錯誤，只需要將合成錯誤的片段作為錯誤類型數(shù)據(jù)，所述合成錯誤片段如合成詞組，進行每種錯誤類型模型的構(gòu)建，然后利用這些不同類型的錯誤空間模型指導最優(yōu)備選語音單元的挑選。利用上述不同類型的錯誤空間模型獲取待合成單元的最優(yōu)備選語音單元的一種實現(xiàn)流程圖如圖4所示，包括以下步驟：步驟401，從音庫中獲取待合成單元的備選語音單元序列。步驟402，提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化。步驟403，計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值減去各聲學特征相對每類錯誤空間模型的似然值的差值的總和，得到第四計算值。步驟404，選取對應(yīng)最大第四計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。具體計算公式如下：U*=argmaxC(U)Σm=1Mwm(logP(X(U,m)|C(U),λm)-logP(X(U,m)|C(U),λmunatural))]]>其中，表示第m類聲學特征對應(yīng)的錯誤空間模型，所述錯誤空間模型可以為頻譜錯誤空間模型、基頻錯誤空間模型，時長錯誤空間模型，頻譜連接錯誤空間模型，基頻連接錯誤空間模型中的一種或多種?？梢?，本發(fā)明實施例提供的語音合成方法，對于待合成文本，首先從音庫中挑選出待合成單元序列中各待合成單元的最優(yōu)備選語音單元，并將其進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)。然后根據(jù)測聽人員對備選語音數(shù)據(jù)的測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型；再根據(jù)修正模型及待合成單元的上下文信息重新從音庫中獲取各待合成單元的最優(yōu)備選語音單元，并進行拼接得到優(yōu)化后的語音數(shù)據(jù)；將所述優(yōu)化后的語音數(shù)據(jù)作為待合成文本的合成語音數(shù)據(jù)輸出。由于將人的主觀聽感直接融合到了最優(yōu)備選語音單元的挑選中，因而使最終得到的合成語音數(shù)據(jù)更符合人的主觀聽感，有效地提升了語音合成效果，而且避免了現(xiàn)有技術(shù)中由于測聽結(jié)果中數(shù)據(jù)不均衡對語音單元挑選產(chǎn)生的不良影響。進一步地，還可以根據(jù)實際應(yīng)用需求，得到不同粒度的測聽結(jié)果，進而采用不同粒度的修正策略，使最終得到的合成語音數(shù)據(jù)更符合人的主觀聽感。另外，需要說明的是，在實際應(yīng)用中，還可以通過迭代方式進行多次修正處理，以使最終得到的合成語音數(shù)據(jù)更符合人的聽感。具體地，在輸出最終的合成語音數(shù)據(jù)之前，先獲取測聽人員對優(yōu)化后的語音數(shù)據(jù)的測聽結(jié)果，判斷該測聽結(jié)果是否達到要求(如待合成文本為教育相關(guān)文本，對合成結(jié)果的要求較高，如測聽結(jié)果的MOS(MeanOpinionScore，MOS)分需要達到4.0以上)；如果達到，則執(zhí)行上述步驟109；否則，返回步驟106，繼續(xù)進行修正處理，直至測聽結(jié)果達到要求。相應(yīng)地，本發(fā)明實施例還提供一種語音合成系統(tǒng)，如圖5所示，是該系統(tǒng)的一種結(jié)構(gòu)示意圖。在該實施例中，所述系統(tǒng)包括：接收模塊501，用于接收待合成文本；預處理模塊502，用于對所述待合成文本進行預處理，得到所述待合成文本的待合成單元序列及待合成單元的上下文相關(guān)信息；第一挑選模塊503，用于根據(jù)所述待合成單元的上下文相關(guān)信息從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元；拼接模塊504，用于依序?qū)⑺写铣蓡卧淖顑?yōu)備選語音單元進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)；測聽結(jié)果獲取模塊505，用于獲取測聽人員對所述備選語音數(shù)據(jù)的測聽結(jié)果；修正模型訓練模塊506，用于根據(jù)所述測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型；第二挑選模塊507，用于根據(jù)所述修正模型及所述待合成單元的上下文信息重新從音庫中獲取所述待合成單元序列中各待合成單元的最優(yōu)備選語音單元；所述拼接模塊504，還用于依序?qū)⒅匦芦@取的所有待合成單元的最優(yōu)備選語音單元進行拼接，得到優(yōu)化后的語音數(shù)據(jù)；輸出模塊508，用于將所述優(yōu)化后的語音數(shù)據(jù)作為所述待合成文本的合成語音數(shù)據(jù)輸出。所述預處理主要包括：分詞、詞性標注及韻律分析，利用所述預處理結(jié)果即可獲得待合成單元的上下文相關(guān)信息，如待合成單元在句子中的位置、待合成單元的詞性信息等。上述第一挑選模塊503可以采用現(xiàn)有的方式從音庫中獲取待合成單元序列中各待合成單元的最優(yōu)備選語音單元，而第二挑選模塊507需要根據(jù)修正模型及待合成單元的上下文信息從音庫中獲取各待合成單元的最優(yōu)備選語音單元，最優(yōu)備選語音單元的挑選準則與第一挑選模塊503的挑選準則不同，而且，根據(jù)測聽結(jié)果的粒度不同，第二挑選模塊507在具體實現(xiàn)上也會采用不同的挑選準則。下面分別對第一挑選模塊503和第二挑選模塊507的實現(xiàn)方式進行詳細說明。所述第一挑選模塊503的一種具體結(jié)構(gòu)包括以下各單元：備選語音單元獲取單元，用于從音庫中獲取所述待合成單元的備選語音單元序列；特征提取單元，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；第一計算單元，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，備選語音單元的各聲學特征相對目標模型的似然值的和，得到第一計算值；選取單元，用于選取對應(yīng)最大第一計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。前面提到，測聽結(jié)果的粒度不同，第二挑選模塊507也有不同的實現(xiàn)方式，比如可以有以下幾種：(1)測聽結(jié)果包括：有錯誤語音數(shù)據(jù)。相應(yīng)地，在該實施例中，修正模型訓練模塊506具體用于根據(jù)所述錯誤語音數(shù)據(jù)訓練對應(yīng)不同聲學特征的錯誤空間模型。第二挑選模塊507可以包括以下各單元：備選語音單元獲取單元，用于從音庫中獲取所述待合成單元的備選語音單元序列；特征提取單元，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；第二計算單元，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值減去各聲學特征相對所述錯誤空間模型的似然值的差值的總和，得到第二計算值；選取單元，用于選取對應(yīng)最大第二計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。(2)所述測聽結(jié)果包括：有錯誤語音數(shù)據(jù)和無錯誤語音數(shù)據(jù)。相應(yīng)地，在該實施例中，修正模型訓練模塊506具體用于根據(jù)所述有錯誤語音數(shù)據(jù)訓練對應(yīng)不同聲學特征的錯誤空間模型、以及根據(jù)所述無錯誤語音數(shù)據(jù)訓練對應(yīng)不同聲學特征的正確空間模型；第二挑選模塊507可以包括以下各單元：備選語音單元獲取單元，用于從音庫中獲取所述待合成單元的備選語音單元序列；特征提取單元，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；第三計算單元，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值、加上與正確空間模型的似然值、并減去相對錯誤空間模型的似然值的總和后，得到第三計算值；選取單元，用于選取對應(yīng)最大第三計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。(3)測聽結(jié)果包括：有錯誤語音數(shù)據(jù)及其錯誤類型，所述錯誤類型包括以下任意一種或多種：發(fā)音錯誤、音高錯誤、語速錯誤、發(fā)音平滑性錯誤、音高平滑性錯誤，每種錯誤類型對應(yīng)的聲學特征分別為頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化。相應(yīng)地，在該實施例中，修正模型訓練模塊506具體用于根據(jù)相同錯誤類型的有錯誤語音數(shù)據(jù)訓練對應(yīng)該錯誤類型的錯誤空間模型。第二挑選模塊507可以包括以下各單元：備選語音單元獲取單元，用于從音庫中獲取所述待合成單元的備選語音單元序列；特征提取單元，用于提取所述備選語音單元序列中各備選語音單元的聲學特征，所述聲學特征的類型包括以下任意一種或多種：頻譜、基頻、時長、拼接處頻譜變化、拼接處基頻變化；第三計算單元，用于計算在所述上下文相關(guān)信息表征的環(huán)境下，所述備選語音單元的各聲學特征相對目標模型的似然值減去各聲學特征相對每類錯誤空間模型的似然值的差值的和，得到第四計算值；選取單元，用于選取對應(yīng)最大第四計算值的備選語音單元作為所述待合成單元的最優(yōu)備選語音單元。上述不同實施例中第二挑選模塊507的挑選準則對應(yīng)的具體計算公式可參照前面本發(fā)明方法實施例中的描述，在此不再贅述。本發(fā)明實施例提供的語音合成系統(tǒng)，對于待合成文本，首先從音庫中挑選出待合成單元序列中各待合成單元的最優(yōu)備選語音單元，并將其進行拼接，得到待合成單元序列的備選語音數(shù)據(jù)。然后根據(jù)測聽人員對備選語音數(shù)據(jù)的測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型；再根據(jù)修正模型及待合成單元的上下文信息重新從音庫中獲取各待合成單元的最優(yōu)備選語音單元，并進行拼接得到優(yōu)化后的語音數(shù)據(jù)；將所述優(yōu)化后的語音數(shù)據(jù)作為待合成文本的合成語音數(shù)據(jù)輸出。由于將人的主觀聽感直接融合到了最優(yōu)備選語音單元的挑選中，因而使最終得到的合成語音數(shù)據(jù)更符合人的主觀聽感，有效地提升了語音合成效果，而且避免了現(xiàn)有技術(shù)中由于測聽結(jié)果中數(shù)據(jù)不均衡對語音單元挑選產(chǎn)生的不良影響。進一步地，還可以根據(jù)實際應(yīng)用需求，得到不同粒度的測聽結(jié)果，進而采用不同粒度的修正策略，使最終得到的合成語音數(shù)據(jù)更符合人的主觀聽感。另外，需要說明的是，在實際應(yīng)用中，還可以通過迭代方式進行多次修正處理，以使最終得到的合成語音數(shù)據(jù)更符合人的聽感。如圖6所示，是本發(fā)明實施例語音合成系統(tǒng)的另一種結(jié)構(gòu)示意圖。與圖5所示實施例不同的是，在該實施例中，所述系統(tǒng)還包括：判斷模塊509。在該實施例中，測聽結(jié)果獲取模塊505還用于獲取測聽人員對所述優(yōu)化后的語音數(shù)據(jù)的測聽結(jié)果。判斷模塊509用于判斷所述測聽結(jié)果是否達到要求；如果達到，則觸發(fā)輸出模塊508將優(yōu)化后的語音數(shù)據(jù)作為待合成文本的合成語音數(shù)據(jù)輸出；如果未達到，則觸發(fā)修正模型訓練模塊506繼續(xù)根據(jù)所述測聽結(jié)果訓練對應(yīng)不同聲學特征的修正模型。本說明書中的各個實施例均采用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對于系統(tǒng)實施例而言，由于其基本相似于方法實施例，所以描述得比較簡單，相關(guān)之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網(wǎng)絡(luò)單元上?？梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下，即可以理解并實施。以上對本發(fā)明實施例進行了詳細介紹，本文中應(yīng)用了具體實施方式對本發(fā)明進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及系統(tǒng)；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實施方式及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。當前第1頁1 2 3

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3