用于文本轉(zhuǎn)語(yǔ)音性能評(píng)價(jià)的系統(tǒng)和方法_2

文檔序號(hào)：9818463閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>用于文本轉(zhuǎn)語(yǔ)音性能評(píng)價(jià)的系統(tǒng)和方法

、SVM(支持向量機(jī)）、深度學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)，進(jìn)行語(yǔ)音模型的訓(xùn)練。
[0029] 在本實(shí)施例的另一個(gè)例子中，評(píng)價(jià)部分還可包括:被配置成把保存于其中的一組測(cè)試文本提供給被評(píng)價(jià)的TTS引擎的測(cè)試文本庫(kù);被配置成接收由TTS引擎變換自所述一組測(cè)試文本的語(yǔ)音的語(yǔ)音庫(kù);和被配置成根據(jù)訓(xùn)練的語(yǔ)音模型計(jì)算每個(gè)語(yǔ)音的得分的計(jì)算單 J L· 〇
[0030] 按照本發(fā)明的另一個(gè)例證實(shí)施例，提供一種計(jì)算機(jī)可讀介質(zhì)，包括用于實(shí)現(xiàn)一種用于文本轉(zhuǎn)語(yǔ)音(TTS)性能評(píng)價(jià)的方法的可執(zhí)行指令，所述方法包括:根據(jù)多個(gè)語(yǔ)音樣本和與相應(yīng)語(yǔ)音樣本關(guān)聯(lián)的得分，建立語(yǔ)音模型;和通過語(yǔ)音模型評(píng)價(jià)TTS引擎。
[0031] 在本實(shí)施例的一個(gè)例子中，所述方法還可包括:記錄基于相同的一組訓(xùn)練文本、來(lái) 自多個(gè)語(yǔ)音源的多個(gè)語(yǔ)音樣本;和對(duì)所述一組語(yǔ)音樣本中的每個(gè)語(yǔ)音樣本分級(jí)，以向其分配得分。
[0032] 在本實(shí)施例的另一個(gè)例子中，所述建立步驟還可包括:預(yù)處理所述多個(gè)語(yǔ)音樣本，以便獲得相應(yīng)的波形;從每個(gè)預(yù)處理波形中提取特征;和通過提取的特征和對(duì)應(yīng)得分訓(xùn)練語(yǔ)音模型。
[0033] 在本實(shí)施例的另一個(gè)例子中，所述評(píng)價(jià)步驟還可包括：向被評(píng)價(jià)的TTS引擎提供一組測(cè)試文本;接收由TTS引擎變換自所述一組測(cè)試文本的語(yǔ)音;和根據(jù)訓(xùn)練的語(yǔ)音模型計(jì)算每個(gè)語(yǔ)音的得分。
[0034] 根據(jù)下面給出的詳細(xì)說(shuō)明，本發(fā)明的進(jìn)一步適用范圍將變得明顯。然而，應(yīng)明白盡管指示本發(fā)明的優(yōu)選實(shí)施例，不過詳細(xì)說(shuō)明和具體例子只是作為例證給出的，因?yàn)楦鶕?jù)下面的詳細(xì)說(shuō)明，對(duì)本領(lǐng)域的技術(shù)人員來(lái)說(shuō)，在本發(fā)明的精神和范圍內(nèi)的各種變化和修改將變得明顯。
【附圖說(shuō)明】
[0035] 根據(jù)結(jié)合附圖進(jìn)行的例證實(shí)施例的以下詳細(xì)說(shuō)明，本發(fā)明的上述和其它方面及優(yōu) 點(diǎn)將變得明顯，附圖舉例圖解說(shuō)明本發(fā)明的原理。
[0036] 圖1圖解說(shuō)明表示按照本發(fā)明的例證實(shí)施例的文本轉(zhuǎn)語(yǔ)音合成的性能評(píng)價(jià)方法的高級(jí)流程圖；
[0037] 圖2圖解說(shuō)明表示按照本發(fā)明的例證實(shí)施例的準(zhǔn)備多個(gè)語(yǔ)音樣本和相關(guān)得分的方法的流程圖；
[0038] 圖3圖解說(shuō)明表示按照本發(fā)明的例證實(shí)施例的利用多個(gè)語(yǔ)音樣本和相關(guān)得分的語(yǔ) 音建模處理的流程圖；
[0039]圖4圖解說(shuō)明表示按照本發(fā)明的例證實(shí)施例的TTS性能評(píng)價(jià)處理的流程圖；
[0040] 圖5圖解說(shuō)明按照本發(fā)明的例證實(shí)施例的用于TTS性能評(píng)價(jià)的系統(tǒng)的方框圖。
【具體實(shí)施方式】
[0041] 在下面的詳細(xì)說(shuō)明中，陳述了眾多的具體細(xì)節(jié)，以透徹理解說(shuō)明的例證實(shí)施例。然而，對(duì)本領(lǐng)域的技術(shù)人員來(lái)說(shuō)，顯然可在沒有一些或所有這些具體細(xì)節(jié)的情況下實(shí)踐說(shuō)明的實(shí)施例。在其它例證實(shí)施例中，未詳細(xì)說(shuō)明公知的結(jié)構(gòu)或處理步驟，以避免不必要地模糊本發(fā)明的概念。
[0042] 本發(fā)明的總體思路是通過結(jié)合幾個(gè)方面的監(jiān)督機(jī)器學(xué)習(xí)方法來(lái)解決自動(dòng)TTS評(píng)價(jià) 的問題。這分成兩個(gè)階段:數(shù)據(jù)采樣和分級(jí)階段;以及語(yǔ)音建模和評(píng)價(jià)階段。
[0043]首先參見圖1，圖中表示按照本發(fā)明的例證實(shí)施例的文本轉(zhuǎn)語(yǔ)音(TTS)合成的性能評(píng)價(jià)用方法100的高級(jí)流程圖。方法100始于在110,準(zhǔn)備多個(gè)語(yǔ)音樣本和與相應(yīng)語(yǔ)音樣本關(guān) 聯(lián)的得分。然后，在120,根據(jù)多個(gè)語(yǔ)音樣本和對(duì)應(yīng)得分，可建立語(yǔ)音模型。隨后，在130,可利用語(yǔ)音模型評(píng)價(jià)TTS引擎。
[0044]下面，將利用許多具體細(xì)節(jié)討論方法100。再次地，這樣的具體細(xì)節(jié)是作為例子給出的，可在沒有一些或所有這些細(xì)節(jié)的情況下實(shí)踐本發(fā)明。圖2是圖解說(shuō)明用于準(zhǔn)備多個(gè)語(yǔ) 音樣本和與之關(guān)聯(lián)的得分的處理200的流程圖。如在210所示，可以提供一組訓(xùn)練文本（"訓(xùn) 練"將在后面討論）。訓(xùn)練文本可包括單詞、短語(yǔ)、成語(yǔ)和句子，或者它們的任意組合。在選定的實(shí)施例中，優(yōu)選句子。所述一組訓(xùn)練文本可以盡可能地多種多樣，以便覆蓋各種使用情形。例如，所述一組訓(xùn)練文本可包括與智能電話機(jī)操作、計(jì)算機(jī)操作、導(dǎo)航、游戲控制臺(tái)、體育運(yùn)動(dòng)、新聞、日期/時(shí)間、天氣/溫度、文學(xué)、科學(xué)和其它領(lǐng)域相關(guān)的句子。所述一組訓(xùn)練文本還可包括從容易/簡(jiǎn)單的單詞到困難/復(fù)雜的句子。從下面的討論可看出，訓(xùn)練集的多樣性有益于語(yǔ)音模型的訓(xùn)練。
[0045] 另外，在220,提供多個(gè)語(yǔ)音源。所述多個(gè)語(yǔ)音源可包括TTS引擎和人類。TTS引擎可從歷史上的第一個(gè)TTS引擎到目前最新的TTS引擎，和從相當(dāng)差的TTS引擎到最好的引擎。在選定的實(shí)施例中，可取的是只包括少數(shù)幾個(gè)確實(shí)較差的例子，而主要集中于具有目前通常已知的優(yōu)點(diǎn)和缺點(diǎn)的當(dāng)前引擎，例如，擅長(zhǎng)于智能電話機(jī)操作的TTS引擎、擅長(zhǎng)于導(dǎo)航的TTS 引擎、擅長(zhǎng)于新聞的TTS引擎等等。同樣地，人類可包括方言不同和發(fā)音的清晰度不同的人。另外，人類可包括男性和女性兩者。
[0046] 從而，在230,通過語(yǔ)音源朗讀一組訓(xùn)練文本，可以準(zhǔn)備多個(gè)語(yǔ)音樣本。就語(yǔ)音源之中的TTS引擎來(lái)說(shuō)，所述一組訓(xùn)練文本可經(jīng)應(yīng)用編程接口（API)被提供給各個(gè)TTS引擎，各個(gè) TTS引擎把文本變換成按照預(yù)定格式記錄并作為語(yǔ)音樣本保存在非臨時(shí)性存儲(chǔ)介質(zhì)中的語(yǔ) 音。就人類講話者而論，語(yǔ)音樣本可利用諸如麥克風(fēng)之類的聲音記錄裝置和關(guān)聯(lián)的聲音記錄軟件記錄。另外，語(yǔ)音樣本和來(lái)自TTS引擎的語(yǔ)音樣本一樣地被格式化，并保存在非臨時(shí) 性存儲(chǔ)介質(zhì)中。優(yōu)選在相同的環(huán)境(比如記錄設(shè)備、記錄軟件及其參數(shù)設(shè)定、噪聲級(jí)等）中，記錄語(yǔ)音樣本。在處理的這個(gè)時(shí)刻，可能產(chǎn)生非常大量的語(yǔ)音樣本。例如，如果Μ是訓(xùn)練句子 (或者單詞、短語(yǔ)和成語(yǔ))的數(shù)目，Ν是準(zhǔn)備的語(yǔ)音源的數(shù)目，那么將產(chǎn)生Μ*Ν個(gè)語(yǔ)音樣本。
[0047] 隨后，在240,可對(duì)多個(gè)語(yǔ)音樣本分級(jí)，以便相對(duì)于人類語(yǔ)音評(píng)價(jià)生成的語(yǔ)音樣本的性能，即，可懂度和自然性。如上所述，可利用主觀評(píng)價(jià)方法評(píng)價(jià)語(yǔ)音樣本，在本發(fā)明的實(shí) 施例中，主觀評(píng)價(jià)方法的適當(dāng)例子可包括平均意見得分(M0S)、診斷接受度測(cè)量(DAM)和理解測(cè)試(CT)。
[0048] 典型的M0S測(cè)試首先包括招募多樣性充分的足夠數(shù)量的聽眾，以便提供統(tǒng)計(jì)上有意義的結(jié)果。隨后，在具有特定的聲學(xué)特性和設(shè)備的受控環(huán)境中進(jìn)行樣本收聽實(shí)驗(yàn)，以確保每個(gè)聽眾接收相同的指令和刺激，以便按照盡可能公平的方式對(duì)語(yǔ)音樣本分級(jí)。ITU-T(國(guó) 際電報(bào)聯(lián)盟-電信標(biāo)準(zhǔn)化部門）推薦標(biāo)準(zhǔn)P.800也更詳細(xì)地規(guī)定了 M0S測(cè)試，該推薦標(biāo)準(zhǔn)也通過引用包含于此。
[0049] 由于這種方法規(guī)模大，也可利用眾包(crowd sourcing)方法分發(fā)對(duì)語(yǔ)音樣本分級(jí) 的任務(wù)。更具體地，例如可經(jīng)因特網(wǎng)把語(yǔ)音樣本分配給一大群人(包括志愿者和兼職人員），以致人們可以坐在家中，在他們的業(yè)余時(shí)間利用自己的硬件對(duì)這些語(yǔ)音樣本分級(jí)。分級(jí)結(jié) 果也可通過因特網(wǎng)收集。從而，可降低分級(jí)的成本。
[0050] 借助M0S測(cè)試，每個(gè)語(yǔ)音樣本被賦予M0S得分（如表1中所示hMOS得分可直接用作對(duì)應(yīng)語(yǔ)音樣本的評(píng)價(jià)得分。在另一個(gè)實(shí)施例中，語(yǔ)音樣本可被加權(quán)。例如，簡(jiǎn)單的句子可具有較低的權(quán)重，而復(fù)雜的句子可具有較高的權(quán)重。賦予的M0S得分和權(quán)重的乘積可用作語(yǔ)音樣本的評(píng)價(jià)得分。權(quán)重可有助于擴(kuò)大各個(gè)語(yǔ)音源之間的性能差異。
[0051] DAM可估計(jì)每個(gè)語(yǔ)音樣本的可懂度、愉悅性和總體接受度，而CT測(cè)量聽眾的理解或者接收的消息被理解的程度。由于DAM和CT在相關(guān)領(lǐng)域中都是眾所周知的，因此這里省略其詳細(xì)說(shuō)明。
[0052]在處理200結(jié)束時(shí)，提供了多個(gè)語(yǔ)音樣本和與相應(yīng)語(yǔ)音樣本關(guān)聯(lián)的得分。隨后，參見圖3,可通過利用語(yǔ)音樣本和關(guān)聯(lián)得分進(jìn)行語(yǔ)音建模處理300。語(yǔ)音建模處理300可始于預(yù) 處理過程310,預(yù)處理過程310為后續(xù)過程預(yù)處理語(yǔ)音樣本。通常，預(yù)處理過程310可包括為語(yǔ)音研究領(lǐng)域的技術(shù)人員所熟悉的信號(hào)采樣、濾波、預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè)等。 [0053] 隨后，處理300轉(zhuǎn)到特征提取過程320，在320，從預(yù)處理波形中提取特征。語(yǔ)音研究領(lǐng)域中的特

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3 4

相關(guān)技術(shù)