用于文本轉(zhuǎn)語音性能評價的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本轉(zhuǎn)語音(TTS)合成的領(lǐng)域,更具體地,涉及用于文本轉(zhuǎn)語音合成的 性能評價的系統(tǒng)和相關(guān)方法。
【背景技術(shù)】
[0002] 話音控制技術(shù)已被研究20年以上,許多提出的益處已在各種應(yīng)用中得到證明。計 算機硬件和軟件的不斷發(fā)展使話音控制技術(shù)的使用更實用、靈活和可靠。結(jié)果,話音控制系 統(tǒng)在現(xiàn)代電子設(shè)備中變得越來越普及。例如,話音控制系統(tǒng)已被結(jié)合到智能電話機、車載電 子設(shè)備(比如可從BMW Corp.獲得的iSpeech系統(tǒng))、智能家居應(yīng)用等中。
[0003] 話音控制系統(tǒng)一般基于語音識別和文本轉(zhuǎn)語音(TTS)合成。語音識別可把用戶產(chǎn) 生的音頻信號轉(zhuǎn)換成對應(yīng)命令,根據(jù)所述命令,電子設(shè)備進行特定操作。另一方面,文本轉(zhuǎn) 語音合成向用戶提供話音讀出功能。例如,在車載電子設(shè)備的情況下,語音識別可讓駕駛員 利用口頭命令控制諸如電話機、空調(diào)、導(dǎo)航和音響系統(tǒng)之類的功能部件,并且文本轉(zhuǎn)語音合 成可提供話音導(dǎo)航信息,或者為駕駛員朗讀電子郵件或SMS消息。這不僅更舒適,而且安全: 駕駛員的雙手始終保持在方向盤上,他(她)對周圍交通情況的注意力不被分散。
[0004] 文本轉(zhuǎn)語音合成是文本到語音的轉(zhuǎn)換。這種轉(zhuǎn)換依照特定語言的發(fā)音規(guī)范,把文 本變換成盡可能接近真實人類語音的合成語音。通常,TTS合成包含自然語言處理的第一步 驟。更具體地,文本輸入被變換成包括待產(chǎn)生的音素、其持續(xù)時間、短語邊界的位置以及各 個短語的音高/頻率輪廓的語言表達。隨后,TTS合成的第二步驟是通過數(shù)字信號處理,把在 語言分析階段中獲得的標(biāo)音和韻律信息變換成聲波波形。K.R.Aida-Zade等在"the main principles of text-to-speech synthesis system"(International Journal of Signal Processing, Vol. 6,No. 1,2010)中也描述了TTS合成系統(tǒng),該文獻通過引用整體包 含于此。
[0005] TTS的質(zhì)量非常重要,因為它與TTS合成系統(tǒng)或引擎生成的話音輸出是否可被客戶 理解以及當(dāng)聽到所述話音輸出時客戶是否感到舒適有關(guān)。語音合成系統(tǒng)的最關(guān)鍵質(zhì)量是自 然性和可懂度。自然性描述輸出的聲音到底有多像人類語音,而可懂度是理解所述輸出的 容易度。理想的語音合成器既自然又易懂。語音合成系統(tǒng)通常試圖使這兩種特性最大化。 [0006] 目前,存在許多可用的TTS引擎,比如Apple Corp.的Siri、Microsoft Corp.的 SAM、Android TTS引擎以及許多其它因特網(wǎng)TTS引擎。從而,出現(xiàn)如何評價這樣的引擎以便 選擇對客戶來說最佳的TTS產(chǎn)品的挑戰(zhàn)。TTS評價旨在關(guān)于諸如可懂度和自然性之類的重要 準(zhǔn)則,評價由TTS合成引擎生成的語音。在TTS性能的評價中,一般使用主觀評價方法,比如 M0S(平均意見得分)、DRT(診斷押韻測試)、DAM(診斷接受度測量)、CT(理解測試)等。
[0007]以M0S為例,它是通過計算一組標(biāo)準(zhǔn)和主觀測試的結(jié)果的平均值進行的,在所述一 組測試中,許多聽眾評定由TTS合成引擎生成的測試句子的感知話音質(zhì)量的等級。下表1表 示M0S分級方案。M0S被表示成在1-5的范圍中的單一數(shù)字,其中1是最低的感知音頻質(zhì)量,5 是最高的感知音頻質(zhì)量測量。通過求所有聽眾的所有得分的平均值,計算各個測試句子的 感知得分。
[0008] 表1:M0S分級方案
[0010] 正如其名稱所暗指的,主觀評價方法依賴于聽眾的個人主觀感知,這意味結(jié)果受 對于測試句子的個體反應(yīng)的隨機性影響。為了降低結(jié)果的不確定性和增大結(jié)果的可重復(fù) 性,通常對于測試裝置、數(shù)據(jù)、條件和聽眾有嚴(yán)格要求(即,理想地,對于不同參與者的測試 環(huán)境應(yīng)嚴(yán)格一致)。通常,主觀評價方法非常費時、費力和耗費成本。
[0011] 另一方面,主觀評價方法不能自動生成TTS性能評價結(jié)果。到目前為止,不存在自 動評價不同TTS合成引擎的性能的現(xiàn)有解決方案。目前,提供TTS產(chǎn)品的公司很多,為了選擇 對客戶來說最佳的TTS產(chǎn)品,非常期望一種能夠高效并且無偏地自動生成評價結(jié)果的TTS性 能評價系統(tǒng)。在開發(fā)基于TTS的產(chǎn)品的過程中,對供應(yīng)商或初始設(shè)備制造商(OEM)來說,隨著 產(chǎn)品的更迭,能夠評價性能是得到改善還是下降也是非常合乎需要的。主觀評價方法或許 適合于科學(xué)研究,但是不能滿足產(chǎn)業(yè)層級要求。
【發(fā)明內(nèi)容】
[0012] 本發(fā)明的一個方面提供一種能夠解決上述和其它現(xiàn)有技術(shù)問題中的一個或多個 問題的用于文本轉(zhuǎn)語音性能評價的系統(tǒng)和方法。
[0013] 本發(fā)明的另一個方面提供一種能夠自動生成TTS性能評價結(jié)果的用于文本轉(zhuǎn)語音 性能評價的系統(tǒng)和方法。
[0014] 按照本發(fā)明的一個例證實施例,提供一種用于文本轉(zhuǎn)語音(TTS)性能評價的方法, 包括:提供多個語音樣本和與相應(yīng)語音樣本關(guān)聯(lián)的得分;根據(jù)所述多個語音樣本和對應(yīng)得 分,建立語音模型;和通過語音模型評價TTS引擎。
[0015] 在本實施例的一個例子中,所述提供步驟還可包括:記錄基于相同的一組訓(xùn)練文 本、來自多個語音源的多個語音樣本;和對所述多個語音樣本中的每個語音樣本分級,以向 其分配得分。
[0016] 在本實施例的另一個例子中,所述多個語音源可包括多個TTS引擎,以及方言不同 和發(fā)音的清晰度不同的人類。
[0017] 在本實施例的另一個例子中,所述分級步驟可通過選自由下列構(gòu)成的組中的方法 進行:平均意見得分(M0S)、診斷接受度測量(DAM)和理解測試(CT)。
[0018] 在本實施例的另一個例子中,所述建立步驟還可包括:預(yù)處理所述多個語音樣本, 以便獲得相應(yīng)的波形;從每個預(yù)處理波形中提取特征;和通過提取的特征和對應(yīng)得分,訓(xùn)練 語音模型。
[0019] 在本實施例的另一個例子中,提取的特征可包括時域特征和頻域特征中的一個或 多個特征。
[0020] 在本實施例的另一個例子中,所述訓(xùn)練步驟可通過利用HMM(隱式馬爾可夫模型)、 SVM(支持向量機)、深度學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)進行。
[0021] 在本實施例的另一個例子中,所述評價步驟還可包括:向被評價的TTS引擎提供一 組測試文本;接收由被評價的TTS引擎變換自所述一組測試文本的語音;和根據(jù)訓(xùn)練的語音 模型計算每個語音的得分。
[0022]按照本發(fā)明的另一個例證實施例,提供一種用于文本轉(zhuǎn)語音(TTS)性能評價的系 統(tǒng),包括:包含多個語音樣本和與相應(yīng)語音樣本關(guān)聯(lián)的得分的樣本庫;被配置成根據(jù)所述多 個語音樣本和對應(yīng)得分建立語音模型的語音建模部分;和被配置成通過語音模型評價TTS 引擎的評價部分。
[0023] 在本實施例的一個例子中,系統(tǒng)還可包括:被配置成記錄基于相同的一組訓(xùn)練文 本、來自多個語音源的多個語音樣本的采樣部分;和被配置成對所述一組語音樣本中的每 個語音樣本分級,以向其分配得分的分級部分。
[0024] 在本實施例的另一個例子中,所述多個語音源可包括多個TTS引擎,以及方言不同 和發(fā)音的清晰度不同的人類。
[0025] 在本實施例的另一個例子中,所述分級部分可被配置成通過選自由下列構(gòu)成的組 中的方法對每個語音樣本分級:平均意見得分(M0S)、診斷接受度測量(DAM)和理解測試 (CT)。
[0026] 在本實施例的另一個例子中,語音建模部分還可包括:被配置成預(yù)處理所述多個 語音樣本,以便獲得相應(yīng)波形的預(yù)處理單元;被配置成從每個預(yù)處理波形中提取特征的特 征提取單元;和被配置成通過提取的特征和對應(yīng)得分訓(xùn)練語音模型的機器學(xué)習(xí)單元。
[0027] 在本實施例的另一個例子中,提取的特征可包括時域特征和頻域特征中的一個或 多個特征。
[0028]在本實施例的另一個例子中,所述機器學(xué)習(xí)單元可被配置成通過利用HMM(隱式馬 爾可夫模型)