、SVM(支持向量機(jī))、深度學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò),進(jìn)行語(yǔ)音模型的訓(xùn)練。
[0029] 在本實(shí)施例的另一個(gè)例子中,評(píng)價(jià)部分還可包括:被配置成把保存于其中的一組 測(cè)試文本提供給被評(píng)價(jià)的TTS引擎的測(cè)試文本庫(kù);被配置成接收由TTS引擎變換自所述一組 測(cè)試文本的語(yǔ)音的語(yǔ)音庫(kù);和被配置成根據(jù)訓(xùn)練的語(yǔ)音模型計(jì)算每個(gè)語(yǔ)音的得分的計(jì)算單 J L· 〇
[0030] 按照本發(fā)明的另一個(gè)例證實(shí)施例,提供一種計(jì)算機(jī)可讀介質(zhì),包括用于實(shí)現(xiàn)一種 用于文本轉(zhuǎn)語(yǔ)音(TTS)性能評(píng)價(jià)的方法的可執(zhí)行指令,所述方法包括:根據(jù)多個(gè)語(yǔ)音樣本和 與相應(yīng)語(yǔ)音樣本關(guān)聯(lián)的得分,建立語(yǔ)音模型;和通過語(yǔ)音模型評(píng)價(jià)TTS引擎。
[0031] 在本實(shí)施例的一個(gè)例子中,所述方法還可包括:記錄基于相同的一組訓(xùn)練文本、來(lái) 自多個(gè)語(yǔ)音源的多個(gè)語(yǔ)音樣本;和對(duì)所述一組語(yǔ)音樣本中的每個(gè)語(yǔ)音樣本分級(jí),以向其分 配得分。
[0032] 在本實(shí)施例的另一個(gè)例子中,所述建立步驟還可包括:預(yù)處理所述多個(gè)語(yǔ)音樣本, 以便獲得相應(yīng)的波形;從每個(gè)預(yù)處理波形中提取特征;和通過提取的特征和對(duì)應(yīng)得分訓(xùn)練 語(yǔ)音模型。
[0033] 在本實(shí)施例的另一個(gè)例子中,所述評(píng)價(jià)步驟還可包括:向被評(píng)價(jià)的TTS引擎提供一 組測(cè)試文本;接收由TTS引擎變換自所述一組測(cè)試文本的語(yǔ)音;和根據(jù)訓(xùn)練的語(yǔ)音模型計(jì)算 每個(gè)語(yǔ)音的得分。
[0034] 根據(jù)下面給出的詳細(xì)說(shuō)明,本發(fā)明的進(jìn)一步適用范圍將變得明顯。然而,應(yīng)明白盡 管指示本發(fā)明的優(yōu)選實(shí)施例,不過詳細(xì)說(shuō)明和具體例子只是作為例證給出的,因?yàn)楦鶕?jù)下 面的詳細(xì)說(shuō)明,對(duì)本領(lǐng)域的技術(shù)人員來(lái)說(shuō),在本發(fā)明的精神和范圍內(nèi)的各種變化和修改將 變得明顯。
【附圖說(shuō)明】
[0035] 根據(jù)結(jié)合附圖進(jìn)行的例證實(shí)施例的以下詳細(xì)說(shuō)明,本發(fā)明的上述和其它方面及優(yōu) 點(diǎn)將變得明顯,附圖舉例圖解說(shuō)明本發(fā)明的原理。
[0036] 圖1圖解說(shuō)明表示按照本發(fā)明的例證實(shí)施例的文本轉(zhuǎn)語(yǔ)音合成的性能評(píng)價(jià)方法的 高級(jí)流程圖;
[0037] 圖2圖解說(shuō)明表示按照本發(fā)明的例證實(shí)施例的準(zhǔn)備多個(gè)語(yǔ)音樣本和相關(guān)得分的方 法的流程圖;
[0038] 圖3圖解說(shuō)明表示按照本發(fā)明的例證實(shí)施例的利用多個(gè)語(yǔ)音樣本和相關(guān)得分的語(yǔ) 音建模處理的流程圖;
[0039]圖4圖解說(shuō)明表示按照本發(fā)明的例證實(shí)施例的TTS性能評(píng)價(jià)處理的流程圖;
[0040] 圖5圖解說(shuō)明按照本發(fā)明的例證實(shí)施例的用于TTS性能評(píng)價(jià)的系統(tǒng)的方框圖。
【具體實(shí)施方式】
[0041] 在下面的詳細(xì)說(shuō)明中,陳述了眾多的具體細(xì)節(jié),以透徹理解說(shuō)明的例證實(shí)施例。然 而,對(duì)本領(lǐng)域的技術(shù)人員來(lái)說(shuō),顯然可在沒有一些或所有這些具體細(xì)節(jié)的情況下實(shí)踐說(shuō)明 的實(shí)施例。在其它例證實(shí)施例中,未詳細(xì)說(shuō)明公知的結(jié)構(gòu)或處理步驟,以避免不必要地模糊 本發(fā)明的概念。
[0042] 本發(fā)明的總體思路是通過結(jié)合幾個(gè)方面的監(jiān)督機(jī)器學(xué)習(xí)方法來(lái)解決自動(dòng)TTS評(píng)價(jià) 的問題。這分成兩個(gè)階段:數(shù)據(jù)采樣和分級(jí)階段;以及語(yǔ)音建模和評(píng)價(jià)階段。
[0043]首先參見圖1,圖中表示按照本發(fā)明的例證實(shí)施例的文本轉(zhuǎn)語(yǔ)音(TTS)合成的性能 評(píng)價(jià)用方法100的高級(jí)流程圖。方法100始于在110,準(zhǔn)備多個(gè)語(yǔ)音樣本和與相應(yīng)語(yǔ)音樣本關(guān) 聯(lián)的得分。然后,在120,根據(jù)多個(gè)語(yǔ)音樣本和對(duì)應(yīng)得分,可建立語(yǔ)音模型。隨后,在130,可利 用語(yǔ)音模型評(píng)價(jià)TTS引擎。
[0044]下面,將利用許多具體細(xì)節(jié)討論方法100。再次地,這樣的具體細(xì)節(jié)是作為例子給 出的,可在沒有一些或所有這些細(xì)節(jié)的情況下實(shí)踐本發(fā)明。圖2是圖解說(shuō)明用于準(zhǔn)備多個(gè)語(yǔ) 音樣本和與之關(guān)聯(lián)的得分的處理200的流程圖。如在210所示,可以提供一組訓(xùn)練文本("訓(xùn) 練"將在后面討論)。訓(xùn)練文本可包括單詞、短語(yǔ)、成語(yǔ)和句子,或者它們的任意組合。在選定 的實(shí)施例中,優(yōu)選句子。所述一組訓(xùn)練文本可以盡可能地多種多樣,以便覆蓋各種使用情 形。例如,所述一組訓(xùn)練文本可包括與智能電話機(jī)操作、計(jì)算機(jī)操作、導(dǎo)航、游戲控制臺(tái)、體 育運(yùn)動(dòng)、新聞、日期/時(shí)間、天氣/溫度、文學(xué)、科學(xué)和其它領(lǐng)域相關(guān)的句子。所述一組訓(xùn)練文 本還可包括從容易/簡(jiǎn)單的單詞到困難/復(fù)雜的句子。從下面的討論可看出,訓(xùn)練集的多樣 性有益于語(yǔ)音模型的訓(xùn)練。
[0045] 另外,在220,提供多個(gè)語(yǔ)音源。所述多個(gè)語(yǔ)音源可包括TTS引擎和人類。TTS引擎可 從歷史上的第一個(gè)TTS引擎到目前最新的TTS引擎,和從相當(dāng)差的TTS引擎到最好的引擎。在 選定的實(shí)施例中,可取的是只包括少數(shù)幾個(gè)確實(shí)較差的例子,而主要集中于具有目前通常 已知的優(yōu)點(diǎn)和缺點(diǎn)的當(dāng)前引擎,例如,擅長(zhǎng)于智能電話機(jī)操作的TTS引擎、擅長(zhǎng)于導(dǎo)航的TTS 引擎、擅長(zhǎng)于新聞的TTS引擎等等。同樣地,人類可包括方言不同和發(fā)音的清晰度不同的人。 另外,人類可包括男性和女性兩者。
[0046] 從而,在230,通過語(yǔ)音源朗讀一組訓(xùn)練文本,可以準(zhǔn)備多個(gè)語(yǔ)音樣本。就語(yǔ)音源之 中的TTS引擎來(lái)說(shuō),所述一組訓(xùn)練文本可經(jīng)應(yīng)用編程接口(API)被提供給各個(gè)TTS引擎,各個(gè) TTS引擎把文本變換成按照預(yù)定格式記錄并作為語(yǔ)音樣本保存在非臨時(shí)性存儲(chǔ)介質(zhì)中的語(yǔ) 音。就人類講話者而論,語(yǔ)音樣本可利用諸如麥克風(fēng)之類的聲音記錄裝置和關(guān)聯(lián)的聲音記 錄軟件記錄。另外,語(yǔ)音樣本和來(lái)自TTS引擎的語(yǔ)音樣本一樣地被格式化,并保存在非臨時(shí) 性存儲(chǔ)介質(zhì)中。優(yōu)選在相同的環(huán)境(比如記錄設(shè)備、記錄軟件及其參數(shù)設(shè)定、噪聲級(jí)等)中, 記錄語(yǔ)音樣本。在處理的這個(gè)時(shí)刻,可能產(chǎn)生非常大量的語(yǔ)音樣本。例如,如果Μ是訓(xùn)練句子 (或者單詞、短語(yǔ)和成語(yǔ))的數(shù)目,Ν是準(zhǔn)備的語(yǔ)音源的數(shù)目,那么將產(chǎn)生Μ*Ν個(gè)語(yǔ)音樣本。
[0047] 隨后,在240,可對(duì)多個(gè)語(yǔ)音樣本分級(jí),以便相對(duì)于人類語(yǔ)音評(píng)價(jià)生成的語(yǔ)音樣本 的性能,即,可懂度和自然性。如上所述,可利用主觀評(píng)價(jià)方法評(píng)價(jià)語(yǔ)音樣本,在本發(fā)明的實(shí) 施例中,主觀評(píng)價(jià)方法的適當(dāng)例子可包括平均意見得分(M0S)、診斷接受度測(cè)量(DAM)和理 解測(cè)試(CT)。
[0048] 典型的M0S測(cè)試首先包括招募多樣性充分的足夠數(shù)量的聽眾,以便提供統(tǒng)計(jì)上有 意義的結(jié)果。隨后,在具有特定的聲學(xué)特性和設(shè)備的受控環(huán)境中進(jìn)行樣本收聽實(shí)驗(yàn),以確保 每個(gè)聽眾接收相同的指令和刺激,以便按照盡可能公平的方式對(duì)語(yǔ)音樣本分級(jí)。ITU-T(國(guó) 際電報(bào)聯(lián)盟-電信標(biāo)準(zhǔn)化部門)推薦標(biāo)準(zhǔn)P.800也更詳細(xì)地規(guī)定了 M0S測(cè)試,該推薦標(biāo)準(zhǔn)也通 過引用包含于此。
[0049] 由于這種方法規(guī)模大,也可利用眾包(crowd sourcing)方法分發(fā)對(duì)語(yǔ)音樣本分級(jí) 的任務(wù)。更具體地,例如可經(jīng)因特網(wǎng)把語(yǔ)音樣本分配給一大群人(包括志愿者和兼職人員), 以致人們可以坐在家中,在他們的業(yè)余時(shí)間利用自己的硬件對(duì)這些語(yǔ)音樣本分級(jí)。分級(jí)結(jié) 果也可通過因特網(wǎng)收集。從而,可降低分級(jí)的成本。
[0050] 借助M0S測(cè)試,每個(gè)語(yǔ)音樣本被賦予M0S得分(如表1中所示hMOS得分可直接用作 對(duì)應(yīng)語(yǔ)音樣本的評(píng)價(jià)得分。在另一個(gè)實(shí)施例中,語(yǔ)音樣本可被加權(quán)。例如,簡(jiǎn)單的句子可具 有較低的權(quán)重,而復(fù)雜的句子可具有較高的權(quán)重。賦予的M0S得分和權(quán)重的乘積可用作語(yǔ)音 樣本的評(píng)價(jià)得分。權(quán)重可有助于擴(kuò)大各個(gè)語(yǔ)音源之間的性能差異。
[0051] DAM可估計(jì)每個(gè)語(yǔ)音樣本的可懂度、愉悅性和總體接受度,而CT測(cè)量聽眾的理解或 者接收的消息被理解的程度。由于DAM和CT在相關(guān)領(lǐng)域中都是眾所周知的,因此這里省略其 詳細(xì)說(shuō)明。
[0052]在處理200結(jié)束時(shí),提供了多個(gè)語(yǔ)音樣本和與相應(yīng)語(yǔ)音樣本關(guān)聯(lián)的得分。隨后,參 見圖3,可通過利用語(yǔ)音樣本和關(guān)聯(lián)得分進(jìn)行語(yǔ)音建模處理300。語(yǔ)音建模處理300可始于預(yù) 處理過程310,預(yù)處理過程310為后續(xù)過程預(yù)處理語(yǔ)音樣本。通常,預(yù)處理過程310可包括為 語(yǔ)音研究領(lǐng)域的技術(shù)人員所熟悉的信號(hào)采樣、濾波、預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè)等。 [0053] 隨后,處理300轉(zhuǎn)到特征提取過程320,在320,從預(yù)處理波形中提取特征。語(yǔ)音研究 領(lǐng)域中的特