專利名稱:為拼接的文語轉(zhuǎn)換聲音確定未對(duì)準(zhǔn)語音單元的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及合成語音領(lǐng)域,更具體地說,涉及對(duì)拼接的文語轉(zhuǎn)換(text-to-speech)聲音中的未對(duì)準(zhǔn)語音單元的檢測。
背景技術(shù):
通過文語轉(zhuǎn)換(TTS)應(yīng)用軟件產(chǎn)生合成語音是利用語音技術(shù)的任何人機(jī)接口的一個(gè)關(guān)鍵性方面。產(chǎn)生合成語音的一種主要技術(shù)是一種數(shù)據(jù)驅(qū)動(dòng)技術(shù),它把實(shí)際人類語音的多個(gè)樣本拼接到一起,形成所希望的TTS輸出。這一產(chǎn)生TTS輸出的拼接技術(shù)可稱作拼接文語轉(zhuǎn)換(CTTS)技術(shù)。
CTTS技術(shù)需要一組語音單元,稱作CTTS聲音,它們能被拼接在一起形成CTTS輸出。一個(gè)語音單元能是任何被定義的語音段,如一個(gè)音素、一個(gè)音位變體(allophone)和/或一個(gè)子音素(sub-phoneme)。每個(gè)CTTS聲音具有特定說話人的聲學(xué)特性,CTTS聲音就是由這些特性產(chǎn)生的。一個(gè)CTTS應(yīng)用能包括多重CTTS聲音以產(chǎn)生不同發(fā)聲的CTTS輸出。
稱作CTTS語音資料庫的人類語音大樣本可用于導(dǎo)出形成CTTS聲音的語音單元。由于涉及大量語言單元,通常利用自動(dòng)方法將CTTS語音資料庫分段成為多個(gè)加標(biāo)簽的語音單元。每個(gè)語音單元被核實(shí)和存儲(chǔ)在語音單元數(shù)據(jù)存儲(chǔ)區(qū)內(nèi)。語音數(shù)據(jù)存儲(chǔ)區(qū)的構(gòu)建能造成CTTS聲音。
可惜的是,用于把CTTS語音資料庫分段成語音單元的自動(dòng)提取方法偶爾會(huì)造成錯(cuò)誤或未對(duì)準(zhǔn)的語音單元。一個(gè)未對(duì)準(zhǔn)的語音單元是含有顯著不準(zhǔn)確之處的加標(biāo)簽的語音單元。兩種常見的未對(duì)準(zhǔn)可包括語音單元的誤加標(biāo)簽和為語音單元建立不適當(dāng)?shù)倪吔?。?dāng)對(duì)一個(gè)語音單元錯(cuò)誤地賦予一個(gè)與之關(guān)聯(lián)的標(biāo)識(shí)符或標(biāo)簽時(shí)便發(fā)生誤加標(biāo)簽。例如,如果發(fā)聲為“M”的語音單元被加上發(fā)聲為“N”的語音單元的標(biāo)簽,則該語音單元是一個(gè)誤加標(biāo)簽的語音單元。當(dāng)一個(gè)語音單元被不適當(dāng)?shù)胤侄危瑥亩某掷m(xù)時(shí)間、起點(diǎn)和/或終點(diǎn)被錯(cuò)誤地確定時(shí),便發(fā)生不適當(dāng)?shù)亟⑦吔纭?br>
由于由未對(duì)準(zhǔn)語音單元構(gòu)造成的CTTS聲音能造成低質(zhì)量的合成語音,所以人們希望從最終CTTS聲音構(gòu)造中排除未對(duì)準(zhǔn)的語音單元。可惜人工檢測未對(duì)準(zhǔn)單元通常是不現(xiàn)實(shí)的,這是由于在這項(xiàng)任務(wù)中所涉及的時(shí)間和努力太大。傳統(tǒng)上,當(dāng)在CTTS語音測試過程中產(chǎn)生的合成語音輸出中含有錯(cuò)誤時(shí)由技術(shù)人員去掉未對(duì)準(zhǔn)單元。就是說,技術(shù)人員試圖“測試掉”未對(duì)準(zhǔn)語音單元,這一過程通常只能校正CTTS聲音構(gòu)造中最嚴(yán)重的錯(cuò)誤。
發(fā)明內(nèi)容
這里公開的發(fā)明提供一種方法、系統(tǒng)和裝置用于檢測在拼接的文語轉(zhuǎn)換(CTTS)聲音中使用的未對(duì)準(zhǔn)語音單元。特別是,為了形成CTTS聲音,能自動(dòng)地從語音資料庫中提取出大量語音單元。對(duì)于每個(gè)語音單元,能計(jì)算出一個(gè)異常指數(shù),它指出該語音單元未對(duì)準(zhǔn)的可能性。異常指數(shù)越大,則該語音單元未對(duì)準(zhǔn)的可能性越大。該語音單元的異常指數(shù)能與一個(gè)已建立的正常閾值比較。如果異常指數(shù)在該正常閾值之下,則該語音單元可被標(biāo)記為核實(shí)過的語音單元。如果該異常指數(shù)在該正常閾值之上,則該語音單元可被標(biāo)記為可疑語音單元。然后,可疑語音單元可被系統(tǒng)地顯示在一個(gè)對(duì)準(zhǔn)核實(shí)界面內(nèi),在那里每個(gè)單元或可被核實(shí)或可被拒絕。所有被核實(shí)的語音單元能用于構(gòu)造CTTS聲音。
本發(fā)明的一個(gè)方面包括過濾在CTTS聲音中要使用的語音單元的方法。一個(gè)正常閾值能在初始時(shí)建立起來。在包括大量語音單元的一個(gè)實(shí)施例中,能使用一個(gè)正常閾值界面調(diào)節(jié)正常閾值,這里正常閾值界面展現(xiàn)這大量語音單元的異常指數(shù)的分布圖形。例如,可在正常閾值界面內(nèi)展現(xiàn)異常指數(shù)柱狀圖。該異常指數(shù)表明與其關(guān)聯(lián)的語音單元未對(duì)準(zhǔn)的可能性。
在本方法內(nèi)能接收至少一個(gè)從語音資料庫中自動(dòng)提取的語音單元以構(gòu)造CTTS聲音。顯然,構(gòu)造CTTS聲音能需要大量語音單元,它們一起構(gòu)成最終在CTTS聲音內(nèi)包含的一組語音單元。對(duì)于該語音單元,能計(jì)算其異常指數(shù)。然后,該異常指數(shù)能與已建立的正常閾值比較。如果異常指數(shù)超過該正常閾值,則該語音單元能被標(biāo)記為可疑語音單元。如果該異常指數(shù)未超過該正常閾值,則該語音單元能被標(biāo)記為核實(shí)過的語音單元。
在一個(gè)實(shí)施例中,異常指數(shù)的計(jì)算能包括檢驗(yàn)該語音單元的多個(gè)異常屬性并為每個(gè)異常屬性賦予一個(gè)異常值。所述的異常指數(shù)可以至少是部分地基于該異常值。在又一個(gè)實(shí)施例中,能為每個(gè)異常屬性識(shí)別出一個(gè)異常權(quán)重。異常權(quán)重和異常值能乘在一起,其結(jié)果幫助確定異常指數(shù)。例如,對(duì)每個(gè)語音單元能檢驗(yàn)至少一個(gè)異常屬性特性。對(duì)每個(gè)異常屬性特性能確定至少一個(gè)異常參數(shù)。這些異常參數(shù)能在異常屬性評(píng)價(jià)函數(shù)中被利用。使用這些異常屬性評(píng)價(jià)函數(shù)能計(jì)算出異常指數(shù)。
再有,可疑語音單元能被展現(xiàn)在對(duì)準(zhǔn)確認(rèn)界面內(nèi)。對(duì)準(zhǔn)確認(rèn)界面能包括一個(gè)用于認(rèn)可該可疑語音單元的確認(rèn)單元和一個(gè)用于否定該可疑語音單元的拒絕單元。如果選擇確認(rèn)單元,則該可疑語音單元能被標(biāo)記為核實(shí)過的語音單元。如果選擇拒絕單元,則該可疑語音單元能被標(biāo)記為被拒絕的語音單元。所有核實(shí)過的語音單元能被放入核實(shí)過的語音單元數(shù)據(jù)存儲(chǔ)區(qū),這里該核實(shí)過的語音單元數(shù)據(jù)存儲(chǔ)區(qū)能被用于構(gòu)造CTTS聲音。然而,被拒絕的語音單元能從CTTS聲音構(gòu)造中排除。在一個(gè)實(shí)施例中,能在對(duì)準(zhǔn)確認(rèn)界面內(nèi)提供一個(gè)音頻回放控制。選擇音頻回放控制能造成在該界面內(nèi)可聽地展現(xiàn)可疑語音單元。在包括至少一批語音單元的另一實(shí)施例中,在對(duì)準(zhǔn)確認(rèn)界面內(nèi)能提供至少一個(gè)瀏覽控制。選擇瀏覽控制能造成從該可疑語音單元瀏覽到另一個(gè)可疑語音單元。
在本發(fā)明的另一方面中,可以在一CTTS聲音中使用一個(gè)對(duì)語音單元過濾的系統(tǒng)。該系統(tǒng)能包括建立正常閾值的單元。該系統(tǒng)還能包括接收至少一個(gè)語音單元的單元,該語音單元是為構(gòu)建CTTS聲音而從一個(gè)語音資料庫中自動(dòng)提取出來的。此外,該系統(tǒng)還能包括為該語音單元計(jì)算異常指數(shù)的單元。該異常指數(shù)能指出該語音單元未對(duì)準(zhǔn)的可能性。再有,該系統(tǒng)能包括將異常指數(shù)與正常閾值進(jìn)行比較的單元。如果異常指數(shù)超過該正常閾值,則把該語音單元標(biāo)記為可疑語音單元的單元能被觸發(fā)。如果異常指數(shù)未超過該正常閾值,則把該語音單元標(biāo)記為核實(shí)過的語音單元的單元能被觸發(fā)。
附圖中顯示出當(dāng)前優(yōu)選的實(shí)施例,但應(yīng)該理解,本發(fā)明不限于所示確定的結(jié)構(gòu)安排和儀器。
圖1是示意圖,表示了根據(jù)這里公開的發(fā)明安排,用于檢測未對(duì)準(zhǔn)的語音單元的一個(gè)系統(tǒng)示例;圖2是流程圖,說明使用圖1的系統(tǒng)計(jì)算一個(gè)語音單元的異常指數(shù)的方法;圖3表示了圖1所示正常閾值界面的圖形用戶界面(GUI)示例;以及圖4是圖1所示對(duì)準(zhǔn)確認(rèn)界面的GUI示例。
具體實(shí)施例方式
這里公開的發(fā)明提供了一種用于檢測在拼接的文語(CTTS)聲音中使用的未對(duì)準(zhǔn)語音單元的方法、系統(tǒng)和裝置。一個(gè)CTTS聲音是指語音單元的集合,諸如音素、音位變體和子音素等語音單元,它們能通過CTTS技術(shù)結(jié)合到一起產(chǎn)生CTTS輸出。由于每個(gè)CTTS聲音能需要大量語音單元,所以CTTS語音單元往往是從含有語音樣本的CTTS語音資料庫中被自動(dòng)提取出來。然而,自動(dòng)提取過程往往造成未對(duì)準(zhǔn)的語音單元,這些未對(duì)準(zhǔn)的語音單元要在構(gòu)造CTTS聲音之前從未過濾的數(shù)據(jù)存儲(chǔ)區(qū)中檢測出來并被去掉。本發(fā)明提高了未對(duì)準(zhǔn)的語音單元能被檢測出來的效率。
更具體地說,一個(gè)指出語音單元未對(duì)準(zhǔn)的可能性的異常指數(shù)能被計(jì)算出來。如果這一異常指數(shù)超過一個(gè)先前建立的正常閾值,則該語音單元被標(biāo)記為可疑語音單元。否則,該語音單元被標(biāo)記為核實(shí)的語音單元??梢烧Z音單元能被展現(xiàn)在圖形用戶界面(GUI)中,從而能由技術(shù)人員確定這些可疑語音單元應(yīng)通過核實(shí)還是被拒絕。核實(shí)過的語音單元能包括在CTTS聲音構(gòu)造中,而被拒絕的語音單元能從CTTS聲音構(gòu)造中排除。結(jié)果,使用本解決方案能比傳統(tǒng)的未對(duì)準(zhǔn)檢測方法快得多地并且更準(zhǔn)確地檢測和過濾未對(duì)準(zhǔn)語音單元。
圖1是示意圖,其表示了檢測未對(duì)準(zhǔn)語音單元的系統(tǒng)示例100。系統(tǒng)100能包括一個(gè)自動(dòng)語音標(biāo)注器(labeler)110、一個(gè)未對(duì)準(zhǔn)檢測器120、一個(gè)正常閾值界面125、一個(gè)對(duì)準(zhǔn)確認(rèn)界面150以及一個(gè)CTTS聲音構(gòu)造器155。還能提供一個(gè)CTTS語音資料庫數(shù)據(jù)存儲(chǔ)區(qū)105、一個(gè)未過濾數(shù)據(jù)存儲(chǔ)區(qū)115、一個(gè)核實(shí)過的數(shù)據(jù)存儲(chǔ)區(qū)140、一個(gè)未對(duì)準(zhǔn)數(shù)據(jù)存儲(chǔ)區(qū)145以及一個(gè)CTTS聲音數(shù)據(jù)存儲(chǔ)區(qū)160。
自動(dòng)語音標(biāo)注器110能包括硬件和/或軟件部件,所述的部件被配置成把語音樣本自動(dòng)分段成語音單元。自動(dòng)語音標(biāo)注器110能對(duì)它創(chuàng)建的每個(gè)語音單元段加上適當(dāng)?shù)臉?biāo)簽。例如,一個(gè)語音單元能被標(biāo)注為從一特定語音上下文中提取的一個(gè)特定音位變體或音素。能由相鄰語音單元的語言特征確定一個(gè)語音單元的語言上下文。
本領(lǐng)域普通技術(shù)人員能理解,自動(dòng)語音標(biāo)注器110能使用多種已知的語音處理技術(shù)。在一個(gè)實(shí)施例中,自動(dòng)語音標(biāo)注器110能檢測一個(gè)語音樣本內(nèi)各詞之間的無聲,從而把該樣本初步分成多個(gè)詞。然后,自動(dòng)語音標(biāo)注器110能使用音調(diào)激振(pitch excitation)把每個(gè)詞分段成語音單元。然后,每個(gè)語音單元能與模型語音單元資料庫內(nèi)包含的相應(yīng)語音單元匹配。然后,每個(gè)語音單元能被賦予與被匹配的模型語音單元相關(guān)聯(lián)的標(biāo)簽。再有,相鄰的語音單元能被適當(dāng)?shù)貥?biāo)注并用于確定一個(gè)選定語音單元的語言上下文。
值得注意的是,自動(dòng)語音標(biāo)注器110不限于某種特定的方法和/或技術(shù),自動(dòng)語音標(biāo)注器110能使用各種已知技術(shù)中的任何技術(shù)。例如,自動(dòng)語音標(biāo)注器能使用聲門靠近實(shí)例(glottal closure instance)(GCI)檢測把語音樣本分段成語音單元。
未對(duì)準(zhǔn)檢測器120能包括硬件和/或軟件部件,所述的部件被配置成分析未過濾的語音單元以確定每個(gè)單元含有未對(duì)準(zhǔn)的可能性。兩種常見的未對(duì)準(zhǔn)可包括語音單元的誤加標(biāo)簽和為語音單元建立不適當(dāng)?shù)倪吔纭N磳?duì)準(zhǔn)檢測器120通過檢測伴隨每個(gè)語音單元的異常來確定未對(duì)準(zhǔn)。至少是部分地根據(jù)檢測到的異常或不存在異常,能確定異常指數(shù)。一旦確定了異常指數(shù),未對(duì)準(zhǔn)檢測器120能將異常指數(shù)與一個(gè)預(yù)先確定的正常閾值加以比較。作為比較的結(jié)果,未過濾數(shù)據(jù)存儲(chǔ)區(qū)115中的語音單元能被有選擇地放入核實(shí)過的數(shù)據(jù)存儲(chǔ)區(qū)135或可疑數(shù)據(jù)存儲(chǔ)區(qū)140。
正常閾值界面125能是一個(gè)圖形用戶界面(GUI),它能幫助建立和調(diào)整正常閾值。例如,預(yù)先確定的一些語音單元的異常指數(shù)分布圖能被呈現(xiàn)在正常閾值界面125中。技術(shù)人員能觀察該分布圖并為正常閾值確定一個(gè)適當(dāng)值。
對(duì)準(zhǔn)確認(rèn)界面150能是一個(gè)GUI,由技術(shù)人員用于把可疑語音單元分類到或者是核實(shí)過的語音單元或者是未對(duì)準(zhǔn)的語音單元。例如,對(duì)準(zhǔn)確認(rèn)界面150能包括多媒體部件,其允許有聲播放可疑語音單元,從而技術(shù)人員能確定語音單元的質(zhì)量。對(duì)準(zhǔn)確認(rèn)界面150能含有可由技術(shù)人員選擇的確認(rèn)對(duì)象,如一個(gè)按鈕。如果該確認(rèn)對(duì)象被觸發(fā),則一個(gè)可疑語音單元能被標(biāo)記為核實(shí)過的并放入核實(shí)過的數(shù)據(jù)存儲(chǔ)區(qū)135。對(duì)準(zhǔn)確認(rèn)界面150還能含有可由技術(shù)人員選擇的拒絕對(duì)象,如一個(gè)按鈕。如果該拒絕對(duì)象被觸發(fā),則一個(gè)可疑語音單元能被標(biāo)記為被拒絕的并放入未對(duì)準(zhǔn)數(shù)據(jù)存儲(chǔ)區(qū)145。放在未對(duì)準(zhǔn)數(shù)據(jù)存儲(chǔ)區(qū)145內(nèi)的語音單元能被從CTTS聲音構(gòu)造中排除。再有,對(duì)準(zhǔn)確認(rèn)界面150能包括瀏覽按鈕用于從一個(gè)可疑語音單元瀏覽到其他可疑語音單元。
CTTS聲音構(gòu)造器155能包括硬件和/或軟件部件,所述的部件被配置成由多個(gè)核實(shí)過的語音單元構(gòu)成CTTS聲音。值是注意的是,一個(gè)完整的CTTS聲音通常能要求完整的一組語音單元。再有,在核實(shí)過的數(shù)據(jù)存儲(chǔ)區(qū)135中能包括構(gòu)成該CTTS聲音的一組語音單元中每個(gè)必要語音單元的多重選擇。CTTS聲音構(gòu)造器155能從放在核實(shí)過的語音單元存儲(chǔ)區(qū)135中的一組核實(shí)過的語音單元中選擇出一組優(yōu)選的語音單元。當(dāng)然,如果所有已被核實(shí)過的語音單元都要被包括在CTTS聲音內(nèi),則選擇一組優(yōu)選的語音單元就不必要了。
如前所述,系統(tǒng)100能包括CTTS語音資料庫數(shù)據(jù)存儲(chǔ)區(qū)105、未過濾數(shù)據(jù)存儲(chǔ)區(qū)115、核實(shí)過的數(shù)據(jù)存儲(chǔ)區(qū)135、可疑數(shù)據(jù)存儲(chǔ)區(qū)140、未對(duì)準(zhǔn)數(shù)據(jù)存儲(chǔ)區(qū)145以及CTTS聲音數(shù)據(jù)存儲(chǔ)區(qū)160。一個(gè)數(shù)據(jù)存儲(chǔ)區(qū),如數(shù)據(jù)存儲(chǔ)區(qū)105、115、135、140、145和/或160,能是配置成信息資料庫的任何電子存儲(chǔ)空間。每個(gè)數(shù)據(jù)存儲(chǔ)區(qū)能代表任何類型的存儲(chǔ)器存儲(chǔ)空間,如在磁和/或光的固定存儲(chǔ)設(shè)備內(nèi)的空間,在諸如隨機(jī)存取存儲(chǔ)器(RAM)之類暫存儲(chǔ)器位置內(nèi)的空間,以及分布在網(wǎng)絡(luò)上的虛擬存儲(chǔ)空間。此外,每個(gè)數(shù)據(jù)存儲(chǔ)區(qū)能在邏輯上和/或物理上作為單個(gè)數(shù)據(jù)存儲(chǔ)區(qū)或作為若干數(shù)據(jù)存儲(chǔ)區(qū)來實(shí)現(xiàn)。每個(gè)數(shù)據(jù)存儲(chǔ)區(qū)還能與信息處理方法關(guān)聯(lián),以進(jìn)行數(shù)據(jù)操作,如存儲(chǔ)數(shù)據(jù)、查詢數(shù)據(jù)、更新數(shù)據(jù)和/或刪除數(shù)據(jù)。再有,在數(shù)據(jù)存儲(chǔ)區(qū)內(nèi)的數(shù)據(jù)能以任何方式存儲(chǔ),如存儲(chǔ)在數(shù)據(jù)庫內(nèi)、在被編索引的一個(gè)或多個(gè)文件內(nèi)、在未被編索引的一個(gè)或多個(gè)文件內(nèi)、在數(shù)據(jù)堆(heap)內(nèi)等。
在操作時(shí),樣本語音段能存在于CTTS語音資料庫數(shù)據(jù)存儲(chǔ)區(qū)105。自動(dòng)語音標(biāo)注器110能由CTTS語音資料庫數(shù)據(jù)存儲(chǔ)區(qū)105中的數(shù)據(jù)中產(chǎn)生語音單元,并把所產(chǎn)生的語音單元放入未過濾數(shù)據(jù)存儲(chǔ)區(qū)115。然后,未對(duì)準(zhǔn)檢測器120能為未過濾數(shù)據(jù)存儲(chǔ)區(qū)115中包含的每個(gè)語音單元計(jì)算一個(gè)異常指數(shù)。如果計(jì)算出的異常指數(shù)超過一個(gè)正常閾值,則該語音單元能被放入可疑數(shù)據(jù)存儲(chǔ)區(qū)140。否則,該語音單元能被放入核實(shí)過的數(shù)據(jù)存儲(chǔ)區(qū)135。接下來,對(duì)準(zhǔn)確認(rèn)界面150能用于檢驗(yàn)可疑語音單元。如果一個(gè)可疑語音單元被對(duì)準(zhǔn)確認(rèn)界面150確認(rèn)為對(duì)準(zhǔn)的,則該可疑語音單元能被放入核實(shí)過的數(shù)據(jù)存儲(chǔ)區(qū)135。如果一個(gè)可疑語音單元被拒絕,則它能被放入未對(duì)準(zhǔn)數(shù)據(jù)存儲(chǔ)區(qū)145。最后,CTTS聲音構(gòu)造器155能由核實(shí)過的數(shù)據(jù)存儲(chǔ)區(qū)135內(nèi)的數(shù)據(jù)構(gòu)造CTTS聲音并把該CTTS聲音放入CTTS聲音數(shù)據(jù)存儲(chǔ)區(qū)160。
本領(lǐng)域普通技術(shù)人員應(yīng)該理解,上述安排只是實(shí)現(xiàn)本發(fā)明的一個(gè)安排示例,其他在功能上等效的安排能被利用。例如,作為將可疑語音單元、核實(shí)過的語音單元以及被拒絕的語音單元放入不同的數(shù)據(jù)存儲(chǔ)區(qū)的一種替代方法,每個(gè)語音單元能被適當(dāng)?shù)刈⑨尣⒋鎯?chǔ)在單一的數(shù)據(jù)存儲(chǔ)區(qū)內(nèi)。在另一實(shí)例中,能實(shí)現(xiàn)具有界面125和界面150二者特征的單一界面,以代替界面125和150。
圖2是說明為語音單元計(jì)算異常指數(shù)的方法200的流程圖。方法200能在未對(duì)準(zhǔn)檢測過程情境內(nèi)實(shí)現(xiàn),該過程將一個(gè)正常閾值與一個(gè)置信區(qū)間相比較。于是,方法200能在圖1所示的未對(duì)準(zhǔn)檢測器120內(nèi)實(shí)現(xiàn)。方法200能以接收語音單元202來啟動(dòng),語音單元202能被從未過濾語音單元數(shù)據(jù)存儲(chǔ)區(qū)中檢索出來。一旦被啟動(dòng),方法200能在步驟205開始,在那里能識(shí)別出一種計(jì)算異常指數(shù)的方法。例如,所識(shí)別出的方法能總體上根據(jù)語音單元波形來計(jì)算異常指數(shù)。在另一例子中,所識(shí)別出的方法可以基于語音單元中包含的離散特性或異常屬性。
在步驟215中,可以為選定的異常屬性檢驗(yàn)未過濾的語音單元。異常屬性可指能用于確定一個(gè)語音單元是否未對(duì)準(zhǔn)的多種指標(biāo)中的任何指標(biāo)。例如,未過濾語音單元的數(shù)字信號(hào)能相對(duì)于模型語音單元的數(shù)字信號(hào)進(jìn)行規(guī)一化,并可確定這兩個(gè)數(shù)字信號(hào)之間的偏差程度。在另一個(gè)例子中,平均音調(diào)值、音調(diào)偏差和語音單元持續(xù)時(shí)間可被作為異常屬性。再有,通常在語音技術(shù)中使用的概率函數(shù),如維持比(viterbi)對(duì)準(zhǔn)中的最佳路徑似然性,能用于定量化異常屬性。在步驟220中,對(duì)該異常屬性,能確定適當(dāng)?shù)漠惓V笖?shù)。在做這一確定時(shí),未過濾語音單元的異常屬性能與一個(gè)預(yù)期值比較。該預(yù)期值可部分地基于與未過濾語音單元等效的至少一個(gè)語音單元(如模型語音單元)所具有的異常屬性值。
替代做法是,在步驟230中能識(shí)別出與異常屬性關(guān)聯(lián)的異常評(píng)估函數(shù)。在數(shù)字信號(hào)處理和/或語音處理中通常使用的各種不同評(píng)估函數(shù)中的任何函數(shù)都可使用。此外,異常屬性評(píng)估函數(shù)既可是基于算法的也可以是基于試探的。再有,該評(píng)估函數(shù)能是通用的或針對(duì)一種特定語音類型的。
例如,可以根據(jù)一個(gè)音素的語音單元是否是一個(gè)爆破音,如“pit”中的“p”、一個(gè)雙元音,如“boil”中的“oi”或一個(gè)磨擦音,如“season”中的“s”,來使用不同的算法評(píng)估函數(shù)。在另一個(gè)例子中,異常屬性評(píng)估函數(shù)能是一個(gè)受過訓(xùn)練的神經(jīng)網(wǎng)絡(luò),如一個(gè)語音識(shí)別專家系統(tǒng)。
一旦識(shí)別出異常函數(shù),該方法能進(jìn)入步驟235,在那里能檢驗(yàn)該語音單元以確定識(shí)別出的異常函數(shù)的參數(shù)值。在步驟240中,使用識(shí)別出的參數(shù)值和識(shí)別出的函數(shù)能計(jì)算一個(gè)異常值。
一旦計(jì)算出了異常值,該方法能進(jìn)入步驟225,在那里能為異常屬性確定異常權(quán)重。在步驟250,能以異常值乘異常權(quán)重。步驟250的結(jié)果可稱作該語音單元的一個(gè)特定異常屬性的異常因子。在包括異常屬性評(píng)估函數(shù)的一個(gè)實(shí)施例中,方程(1)能用于計(jì)算異常因子。
(1)異常因子=aw*af(ap1,ap2,…,apn)這里aw是異常權(quán)重,af是異常屬性評(píng)估函數(shù),ap1,ap2,...,apn是該異常屬性評(píng)估函數(shù)的異常參數(shù)。在另一實(shí)施例中,方程(2)能用于計(jì)算異常因子。
(2)異常因子=aw*av這里aw是異常權(quán)重,av是異常值。
在步驟255中,該方法能確定是否還有任何異常屬性要被確定,如果是,則方法能進(jìn)入步驟215。如果不是,則方法能進(jìn)入步驟260,在那里能計(jì)算異常指數(shù)。例如,異常指數(shù)能是對(duì)一給定語音單元計(jì)算出的全部異常因子之和。
一旦在步驟260中計(jì)算出異常指數(shù),該方法能進(jìn)入步驟265,在那里該異常指數(shù)能與一個(gè)正常閾值比較。在步驟270中,如果該異常指數(shù)大于該正常閾值,則該語音單元能被標(biāo)記為可疑語音單元204。在一個(gè)實(shí)施例中,可疑語音單元204能被傳遞到可疑語音單元數(shù)據(jù)存儲(chǔ)區(qū)。然而,如果該異常指數(shù)小于正常閾值,如步驟275中所示,則該語音單元能被標(biāo)記為核實(shí)過的語音單元206。在一個(gè)實(shí)施例中,核實(shí)過的語音單元206能被傳遞到核實(shí)過的數(shù)據(jù)存儲(chǔ)區(qū)。
圖3是圖1中描述的正常閾值界面的GUI示例300、GUI300能包括閾值建立部分310、分布圖315以及閾值改變按鈕320。閾值建立部分310允許用戶輸入一個(gè)新的閾值。例如可以向與當(dāng)前閾值相關(guān)聯(lián)的文本框中輸入一個(gè)閾值。另一種作法是,用戶能在閾值建立部分310中送入一個(gè)百分比,這里的百分比代表其異常指數(shù)大于已建立的正常閾值的語音單元所占百分比。如果這一百分比被輸入,則能自動(dòng)計(jì)算出相應(yīng)的閾值。
分布圖315能圖形展示處理過的語音單元的異常指數(shù)值316,以其縱坐標(biāo)度量異常指數(shù),以其橫坐標(biāo)代表近似有指定的異常指數(shù)的語音單元的頻度。此外,分布圖315能包括圖形閾值318,其以圖形顯示當(dāng)前正常閾值。在一個(gè)實(shí)施例中,圖形閾值318能被人機(jī)交互定位,造成在閾值建立部分310中自動(dòng)發(fā)生相應(yīng)的改變。選擇閾值改變按鈕320能使GUI300中出現(xiàn)的閾值成為該未對(duì)準(zhǔn)確定系統(tǒng)的新的正常閾值。
圖4是圖1中描述的對(duì)準(zhǔn)確認(rèn)界面的GUI示例400。GUI400能包括可疑單元項(xiàng)目410、圖形單元顯示415、播放按鈕420、確認(rèn)按鈕425、拒絕按鈕430以及瀏覽按鈕435、440、445和450??梢蓡卧?xiàng)目410能顯示當(dāng)前可疑語音單元數(shù)據(jù)存儲(chǔ)區(qū)中包含的一個(gè)語音單元的標(biāo)識(shí)符。在可疑單元項(xiàng)目410中展現(xiàn)的語音單元響應(yīng)瀏覽按鈕的選擇而改變。例如,如果選擇“第一個(gè)”瀏覽按鈕435,則在可疑單元項(xiàng)目410中能展現(xiàn)可疑數(shù)據(jù)存儲(chǔ)區(qū)內(nèi)順序上的第一個(gè)可疑單元的標(biāo)識(shí)。類似地,“前一個(gè)”瀏覽按鈕440能使前一個(gè)可疑單元標(biāo)識(shí)符呈現(xiàn)在可疑單元項(xiàng)目410中?!跋乱粋€(gè)”瀏覽按鈕445能使后一個(gè)可疑單元標(biāo)識(shí)符呈現(xiàn)在可疑單元項(xiàng)目410中。最后,“最后一個(gè)”瀏覽按鈕450能使順序上最后一個(gè)可疑單元標(biāo)識(shí)符呈現(xiàn)在可疑單元項(xiàng)目410中。
圖形單元顯示415能圖形展現(xiàn)一個(gè)波形,其中包括可疑單元項(xiàng)目410中選定的可疑語音單元。在一個(gè)實(shí)施例中,還能以圖形展現(xiàn)與該可疑語音單元相鄰的語音單元,以便給出該可疑圖形單元的上下文。在圖形單元顯示415中能包括從一個(gè)顯示的語音單元波形段瀏覽到另一段的控制。此外,選擇“播放”按鈕420能使展現(xiàn)在圖形單元顯示415中的波形被可聽地展現(xiàn)出來。選擇“核實(shí)”按鈕425能把當(dāng)前語音單元標(biāo)記為核實(shí)過的語音單元。此外,核實(shí)過的語音單元可以從可疑數(shù)據(jù)存儲(chǔ)區(qū)移到核實(shí)過的數(shù)據(jù)存儲(chǔ)區(qū)。選擇“拒絕”按鈕430能把當(dāng)前語音單元標(biāo)記為被拒絕的語音單元。每當(dāng)未對(duì)準(zhǔn)是由于邊界錯(cuò)位造成時(shí),選擇“拒絕”按鈕430還能拒絕與該可疑單元共享邊界的語音單元。此外,被拒絕的語音單元能從可疑數(shù)據(jù)存儲(chǔ)區(qū)移動(dòng)到未對(duì)準(zhǔn)的數(shù)據(jù)存儲(chǔ)區(qū)。
應(yīng)該指出,這里公開的各種GUI只是為了演示目的而給出的。因此,本發(fā)明不受特定GUI或在GUI視圖內(nèi)包含的數(shù)據(jù)輸入機(jī)制的限制。相反,本領(lǐng)域技術(shù)人員將會(huì)理解,各種不同的GUI類型和數(shù)據(jù)條目、字段、選擇器以及控制的各種安排都能被采用。
本發(fā)明能以硬件、軟件或硬件和軟件的組合來實(shí)現(xiàn)。本發(fā)明能以位于一個(gè)計(jì)算機(jī)系統(tǒng)中的集中方式實(shí)現(xiàn)或以分布式方式實(shí)現(xiàn),在分布式方式中不同部件分布在若干互連的計(jì)算機(jī)系統(tǒng)上。任何種類的計(jì)算機(jī)系統(tǒng)或適合于實(shí)現(xiàn)這里描述的方法的其他裝置都是適用的。典型的硬件和軟件組合可以是通用計(jì)算機(jī)系統(tǒng)加上一個(gè)計(jì)算機(jī)程序,當(dāng)把該程序加載和執(zhí)行時(shí),它能控制該計(jì)算機(jī)系統(tǒng)使其實(shí)現(xiàn)這里描述的方法。
本發(fā)明還能體現(xiàn)為一個(gè)計(jì)算機(jī)程序產(chǎn)品,它包含能實(shí)現(xiàn)這里所述方法的全部特性,并是當(dāng)把它裝載到一個(gè)計(jì)算機(jī)系統(tǒng)時(shí),它能實(shí)現(xiàn)這些方法。在本說明范圍內(nèi),計(jì)算機(jī)程序是指一組指令的以任何語言、代碼或符號(hào)組成的表達(dá)式,這組指令使一個(gè)具有信息處理能力的系統(tǒng)或者是直接地或者在如下述二者之一或二者之后實(shí)現(xiàn)特定功能a)轉(zhuǎn)換成另一種語言、代碼或符號(hào);b)以不同的材料形式復(fù)制。
本發(fā)明能以其他形式實(shí)現(xiàn)而不離開本發(fā)明的精神或基本屬性。因此,應(yīng)參考下文的權(quán)利要求,而不是前述說明,以指出本發(fā)明的范圍。
權(quán)利要求
1.一種過濾在拼接的文語轉(zhuǎn)換聲音中要使用的語音單元的方法,包括如下步驟接收至少一個(gè)從語音資料庫中自動(dòng)提取的語音單元以構(gòu)造拼接的文語轉(zhuǎn)換聲音;為所述語音單元計(jì)算一個(gè)異常指數(shù),其中所述的異常指數(shù)指示所述語音單元未對(duì)準(zhǔn)的可能性;將所述異常指數(shù)與一正常閾值比較;如果所述異常指數(shù)不超過所述正常閾值,把所述語音單元標(biāo)記為核實(shí)過的語音單元;以及使用所述核實(shí)過的語音單元構(gòu)造所述拼接的文語轉(zhuǎn)換聲音。
2.權(quán)利要求1的方法,進(jìn)一步包括如下步驟如果所述異常指示超過所述正常閾值,把所述語音單元標(biāo)記為可疑語音單元。
3.權(quán)利要求2的方法,進(jìn)一步包括在一個(gè)對(duì)準(zhǔn)確認(rèn)界面內(nèi)展現(xiàn)所述可疑語音單元的步驟,其中所述對(duì)準(zhǔn)確認(rèn)界面包括一個(gè)確認(rèn)單元用于確認(rèn)所述可疑語音單元有效和一個(gè)拒絕單元用于使所述可疑語音單元無效。
4.權(quán)利要求3的方法,其中所述至少一個(gè)語音單元包含多個(gè)語音單元,所述方法進(jìn)一步包括如下步驟在所述對(duì)準(zhǔn)確認(rèn)界面內(nèi)提供至少一個(gè)瀏覽控制;以及在選擇所述瀏覽控制之一時(shí),從所述可疑語音單元瀏覽到另一個(gè)不同的可疑語音單元。
5.權(quán)利要求3的方法,進(jìn)一步包括如下步驟在所述對(duì)準(zhǔn)確認(rèn)界面內(nèi)提供一個(gè)音頻回放控制;以及在選擇所述音頻回放控制時(shí),有聲地呈現(xiàn)所述可疑語音單元。
6.權(quán)利要求3的方法,進(jìn)一步包括如下步驟如果在所述對(duì)準(zhǔn)確認(rèn)界面內(nèi)所述確認(rèn)單元被選定,則把所述可疑語音單元標(biāo)記為核實(shí)過的語音單元。
7.權(quán)利要求3的方法,進(jìn)一步包括如下步驟如果在所述對(duì)準(zhǔn)確認(rèn)界面內(nèi)所述拒絕單元被選定,則把所述可疑語音單元標(biāo)記為被拒絕的語音單元;以及從所述拼接文語轉(zhuǎn)換聲音的所述構(gòu)造中排除所述被拒絕的語音單元。
8.權(quán)利要求1的方法,其中所述至少一個(gè)語音單元包括多個(gè)語音單元,所述方法進(jìn)一步包括如下步驟在一個(gè)正常閾值界面內(nèi)呈現(xiàn)所述多個(gè)語音單元的異常指數(shù)分布圖;以及在所述正常閾值界面內(nèi)調(diào)節(jié)所述正常閾值。
9.權(quán)利要求1的方法,所述計(jì)算步驟進(jìn)一步包括如下步驟檢驗(yàn)所述語音單元的多個(gè)異常屬性;對(duì)每個(gè)所述異常屬性賦予一個(gè)異常值;以及至少是部分地根據(jù)所述多個(gè)異常值計(jì)算所述異常指數(shù)。
10.權(quán)利要求9的方法,所述計(jì)算步驟進(jìn)一步包括如下步驟對(duì)于每個(gè)異常屬性,識(shí)別出一個(gè)異常權(quán)重,并把所述異常權(quán)重與所述異常值相乘;以及把所述相乘的結(jié)果相加以確定所述異常指數(shù)。
11.權(quán)利要求9的方法,所述賦予步驟進(jìn)一步包括如下步驟檢驗(yàn)所述語音單元的至少一個(gè)異常屬性特性;對(duì)每個(gè)異常屬性特性,確定至少一個(gè)異常參數(shù);在一個(gè)異常屬性評(píng)估函數(shù)中利用所述異常參數(shù);以及使用所述異常屬性評(píng)估函數(shù)計(jì)算所述異常指數(shù)。
12.一種過濾在拼接的文語轉(zhuǎn)換聲音中要使用的語音單元的系統(tǒng),包括接收至少一個(gè)從語音資料庫中自動(dòng)提取的語音單元以構(gòu)造拼接的文語轉(zhuǎn)換聲音的單元;為所述語音單元計(jì)算一個(gè)異常指數(shù)單元,其中所述異常指數(shù)指示所述語音單元未對(duì)準(zhǔn)的可能性;將所述異常指數(shù)與一個(gè)正常閾值比較的單元;如果所述異常指數(shù)不超過所述正常閾值,把所述語音單元標(biāo)記為核實(shí)過的語音單元的單元;以及使用所述核實(shí)過的語音單元構(gòu)造所述拼接的文語轉(zhuǎn)換聲音的單元。
13.一種機(jī)器可讀的存儲(chǔ)器,其上存儲(chǔ)有一個(gè)具有多個(gè)代碼部分的計(jì)算機(jī)程序,所述代碼部分可由機(jī)器執(zhí)行以使該機(jī)器完成如下步驟接收至少一個(gè)從語音資料庫中自動(dòng)提取的語音單元以構(gòu)造拼接的文語轉(zhuǎn)換聲音;為所述語音單元計(jì)算一個(gè)異常指數(shù),其中所述異常指數(shù)指示所述語音單元未對(duì)準(zhǔn)的可能性;將所述異常指數(shù)與一正常閾值比較;如果所述異常指數(shù)不超過所述正常閾值,把所述語音單元標(biāo)記為核實(shí)過的語音單元;以及使用所述核實(shí)過的語音單元構(gòu)造所述拼接的文語轉(zhuǎn)換聲音。
14.權(quán)利要求13的機(jī)器可讀存儲(chǔ)器,進(jìn)一步包括如下步驟如果所述異常指示超過所述正常閾值,把所述語音單元標(biāo)記為可疑語音單元。
15.權(quán)利要求14的機(jī)器可讀存儲(chǔ)器,進(jìn)一步包括在一個(gè)對(duì)準(zhǔn)確認(rèn)界面內(nèi)展現(xiàn)所述可疑語音單元的步驟,其中所述對(duì)準(zhǔn)確認(rèn)界面包括一個(gè)確認(rèn)單元用于確認(rèn)所述可疑語音單元有效和一個(gè)拒絕單元用于使所述可疑語音單元無效。
16.權(quán)利要求15的機(jī)器可讀存儲(chǔ)器,其中所述至少一個(gè)語音單元包括多個(gè)語音單元,所述方法進(jìn)一步包括如下步驟在所述對(duì)準(zhǔn)確認(rèn)界面內(nèi)提供至少一個(gè)瀏覽控制;以及在選擇所述瀏覽控制之一時(shí),從所述可疑語音單元瀏覽到另一個(gè)不同的可疑語音單元。
17.權(quán)利要求15的機(jī)器可讀存儲(chǔ)器,進(jìn)一步包括如下步驟在所述對(duì)準(zhǔn)確認(rèn)界面內(nèi)提供一個(gè)音頻回放控制;以及在選擇所述音頻回放控制時(shí),有聲地呈現(xiàn)所述可疑語音單元。
18.權(quán)利要求15的機(jī)器可讀存儲(chǔ)器,進(jìn)一步包括如下步驟如果在所述對(duì)準(zhǔn)確認(rèn)界面內(nèi)所述確認(rèn)單元被選定,則把所述可疑語音單元標(biāo)記為核實(shí)過的語音單元。
19.權(quán)利要求15的機(jī)器可讀存儲(chǔ)器,進(jìn)一步包括如下步驟如果在所述對(duì)準(zhǔn)確認(rèn)界面內(nèi)所述拒絕單元被選定,則把所述可疑語音單元標(biāo)記為被拒絕的語音單元;以及從所述拼接文語轉(zhuǎn)換聲音的所述構(gòu)造中排除所述被拒絕的語音單元。
20.權(quán)利要求13的機(jī)器可讀存儲(chǔ)器,其中所述至少一個(gè)語音單元包括多個(gè)語音單元,所述方法進(jìn)一步包括如下步驟在一個(gè)正常閾值界面內(nèi)呈現(xiàn)所述多個(gè)語音單元的異常指數(shù)分布圖;以及在所述正常閾值界面內(nèi)調(diào)節(jié)所述正常閾值。
21.權(quán)利要求13的機(jī)器可讀存儲(chǔ)器,所述計(jì)算步驟進(jìn)一步包括如下步驟檢驗(yàn)所述語音單元的多個(gè)異常屬性;對(duì)每個(gè)所述異常屬性賦予一個(gè)異常值;以及至少是部分地根據(jù)所述多個(gè)異常值計(jì)算所述異常指數(shù)。
22.權(quán)利要求21的機(jī)器可讀存儲(chǔ)器,所述計(jì)算步驟進(jìn)一步包括如下步驟對(duì)于每個(gè)異常屬性,識(shí)別出一個(gè)異常權(quán)重,并把所述異常權(quán)重與所述異常值相乘;以及把所述相乘的結(jié)果相加以確定所述異常指數(shù)。
23.權(quán)利要求21的機(jī)器可讀存儲(chǔ)器,所述賦予步驟進(jìn)一步包括如下步驟檢驗(yàn)所述語音單元的至少一個(gè)異常屬性特性;對(duì)每個(gè)異常屬性特性,確定至少一個(gè)異常參數(shù);在一個(gè)異常屬性評(píng)估函數(shù)中利用所述異常參數(shù);以及使用所述異常屬性評(píng)估函數(shù)計(jì)算所述異常指數(shù)。
全文摘要
一種過濾在拼接的文語轉(zhuǎn)換(CTTS)聲音中要使用的語音單元的方法。初始時(shí)能建立一個(gè)正常閾值??梢越邮罩辽僖粋€(gè)從語音資料庫中自動(dòng)提取的語音單元以構(gòu)造CTTS聲音。對(duì)該語音單元,能計(jì)算其異常指數(shù)。然后,該異常指數(shù)能與已建立的正常閾值比較。如果異常指數(shù)超過該正常閾值,則該語音單元能被標(biāo)記為可疑語音單元。如果該語音單元未超過該正常閾值,則該語音單元能被標(biāo)記為核實(shí)過的語音單元。使用核實(shí)過的語音單元能構(gòu)建拼接文語轉(zhuǎn)換聲音。
文檔編號(hào)G10L13/06GK1577489SQ20041003746
公開日2005年2月9日 申請日期2004年4月29日 優(yōu)先權(quán)日2003年7月30日
發(fā)明者P·格利森, M·E·史密斯, J·Z·曾 申請人:國際商業(yè)機(jī)器公司