適用于提高合成語音可懂性的運行時合成器的制作方法

文檔序號：2835059閱讀：158來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學設(shè)備的制造及制作,分析技術(shù)

專利名稱：適用于提高合成語音可懂性的運行時合成器的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音合成。更具體地講，本發(fā)明涉及一種用于根據(jù)實時數(shù)據(jù)提高運行時合成語音的可懂性的方法和系統(tǒng)。
背景技術(shù)：
在諸如汽車車廂、機艙和駕駛室、以及住宅和辦公室之類的許多環(huán)境中，已經(jīng)開發(fā)了多種系統(tǒng)來提高呈現(xiàn)給收聽者的可聽見聲音的可懂性。例如，近來改進汽車聲頻系統(tǒng)輸出的努力導(dǎo)致可以手動或自動調(diào)節(jié)聲頻系統(tǒng)的頻譜輸出的均衡器。盡管這一直是響應(yīng)收聽者對各種控制的操縱進行的，但最近的研究涉及到收聽者環(huán)境的聲頻抽樣。聲頻系統(tǒng)均衡方法一般需要有關(guān)系統(tǒng)要在其中使用的預(yù)期環(huán)境的大量知識。因此，這種類型的應(yīng)用在聲頻系統(tǒng)輸出受到限制，并且，在轎車的情況下，一般固定到特殊類型和型號的轎車。
實際上，多年來航空和軍用型通信中一直使用語音拼音字母表(即，alhpa，bravo，Charlie，...)以在嚴酷環(huán)境下消除拼讀字母的歧義。因此，這種措施也是基于在存在信號和/或背景噪聲的情況下，某些聲音天生比其它的聲音更容易聽懂的基本理論。
可懂性改進的另一個例子涉及蜂窩電話中信號處理以減小上行鏈路/下行鏈路信道中或基站網(wǎng)中發(fā)送錯誤造成的聲頻失真。十分重要的是，這種方法與信道(或卷積)噪聲有關(guān)，并且沒有考慮到收聽者環(huán)境中存在的背景(或附加)噪聲。還有另一個例子是經(jīng)常在電話會議中使用的慣用回聲消除系統(tǒng)。
也應(yīng)當著重指出，所有上述技術(shù)都沒有提供用于在運行時改進合成語音的機構(gòu)。這是十分關(guān)鍵的，因為最近在改進語音合成器輸出方面取得的進展，使得語音合成迅速地流行。盡管取得了這些最近的進展，語音合成方面仍然存在著許多困難。實際上，一個特別的困難是，所有慣用語音合成器需要事先了解預(yù)期的環(huán)境知識，以便能夠在設(shè)計時設(shè)置各種控制參數(shù)值。很容易理解，這樣一種方式是極端不靈活的，并且能夠很好地使用這種合成器的環(huán)境范圍是十分有限的。因此，非常希望能夠提供一種根據(jù)實時數(shù)據(jù)改進合成語音，從而提高語音的可懂性的方法和系統(tǒng)。

發(fā)明內(nèi)容
通過根據(jù)本發(fā)明的一種改進合成語音的方法可以達到上述和其它目的。方法包括根據(jù)文本輸入和多個運行時控制參數(shù)值產(chǎn)生合成語音的步驟。實時數(shù)據(jù)是根據(jù)一個輸入信號產(chǎn)生的，其中輸入信號表征了語音對于一個收聽者的可懂性。方法進一步提供了根據(jù)實時數(shù)據(jù)修改一個或更多的運行時控制參數(shù)值，從而提高語音的可懂性。在運行時而不是在設(shè)計階段修改參數(shù)值提供了通過慣用方法不能取得的自適應(yīng)水平。
此外，根據(jù)本發(fā)明，提供了一種修改一個或更多的語音合成器運行時控制參數(shù)的方法。方法包括接收實時數(shù)據(jù)，和根據(jù)實時數(shù)據(jù)識別合成語音的有關(guān)特性的步驟。有關(guān)特性具有對應(yīng)的運行時控制參數(shù)。方法進一步提供了將調(diào)節(jié)值應(yīng)用到控制參數(shù)的參數(shù)值，從而能夠以希望的方式改變語音的有關(guān)特性。
在本發(fā)明的另一方面，一種語音合成器適配系統(tǒng)包括文本到語音(TTS)合成器，聲頻輸入系統(tǒng)和適配控制器。合成器根據(jù)文本輸入和多個運行時控制參數(shù)值產(chǎn)生語音。聲頻輸入系統(tǒng)根據(jù)包含在語音重放的環(huán)境中的各種類型的背景噪聲產(chǎn)生實時數(shù)據(jù)。適配控制器連接到合成器和聲頻輸入系統(tǒng)。適配控制器根據(jù)實時數(shù)據(jù)修改一個或更多的運行時控制參數(shù)值，從而減小了背景噪聲與語音之間的干擾。
應(yīng)當理解，無論上面的一般性說明，還是下面的詳細說明，都是為了舉例說明本發(fā)明和為了理解權(quán)利要求中指出的本發(fā)明的性質(zhì)和特征而提供的綜述和框架。說明書包括了附圖，以提供對本發(fā)明的進一步的理解，并且附圖結(jié)合在說明書中并構(gòu)成說明書的一部分。附圖示出了本發(fā)明的各種特征和實施例，并且與說明書一起用來解釋本發(fā)明的原理和操作。
附圖簡要說明通過閱讀下面的說明書和附屬的權(quán)利要求，并且參考附圖，熟悉本領(lǐng)域的人員將會了解本發(fā)明的各種優(yōu)點，在附圖中

圖1是根據(jù)本發(fā)明的原理的一個語音合成器適配系統(tǒng)的方框圖；圖2是根據(jù)本發(fā)明的原理的改進合成語音的方法的流程圖；圖3是根據(jù)本發(fā)明的一個實施例的根據(jù)一個輸入信號產(chǎn)生實時數(shù)據(jù)的過程的流程圖；圖4是根據(jù)本發(fā)明的一個實施例的一個用實時數(shù)據(jù)表示背景噪聲的特性的過程的流程圖；圖5是根據(jù)本發(fā)明的一個實施例的一個改進一個或更多的運行時控制參數(shù)值的過程的流程圖；和圖6是顯示根據(jù)本發(fā)明的一個實施例的有關(guān)特性和對應(yīng)的運行時控制參數(shù)的示意圖。
優(yōu)選實施例詳細說明現(xiàn)在參考圖1，圖1示出了一個優(yōu)選的語音合成器適配系統(tǒng)10。通常，適配系統(tǒng)10具有一個用于根據(jù)文本輸入16和多個運行時控制參數(shù)值42產(chǎn)生合成語音14的文本到語音(TTS)合成器12，一個根據(jù)包含在語音14重放的環(huán)境24中的背景噪聲22產(chǎn)生實時數(shù)據(jù)(RTD)20的聲頻輸入系統(tǒng)18，一個連接到合成器12和聲頻輸入系統(tǒng)18的適配控制器26。適配控制器26根據(jù)實時數(shù)據(jù)20修改一個或更多的運行時控制參數(shù)值42從而減小背景噪聲22與語音14之間的干擾。聲頻輸入系統(tǒng)18優(yōu)選包括一個聲-電信號轉(zhuǎn)換器，例如，一個將聲波轉(zhuǎn)換成電信號的話筒。
背景噪聲22可以包括來自如圖所述的多個來源的分量。將干擾源根據(jù)來源的類型和特性分類。例如，諸如警車警笛28和過往的飛機(未示出)之類的一些噪聲源產(chǎn)生通常是迅速改變特性的瞬時高水平干擾。諸如操作中的機械30和空調(diào)單元(未示出)之類的其它噪聲源一般產(chǎn)生低水平的固定背景噪聲。此外，諸如無線電32和各種娛樂設(shè)施(未示出)通常產(chǎn)生諸如音樂和歌聲之類的具有類似于合成語音14特性的進行中干擾。此外，環(huán)境24中存在的競爭說話者34可能是一種具有實際上與合成語音14相同的屬性的干擾源。此外，環(huán)境24本身也可能影響合成語音14的輸出。因此，環(huán)境24及其影響可以隨時間動態(tài)地改變。
應(yīng)當強調(diào)指出，盡管示出適配系統(tǒng)10是根據(jù)包含在語音14重放的環(huán)境24中的背景噪聲22產(chǎn)生實時數(shù)據(jù)20的，但是，本發(fā)明不限于此。例如，如下面將要更詳細地說明的，也可以根據(jù)從收聽者34經(jīng)過輸入設(shè)備19的輸入產(chǎn)生實時數(shù)據(jù)20。
現(xiàn)在轉(zhuǎn)到圖2，圖2示出了一種改進合成語音的方法38?？梢钥吹?，在步驟40，根據(jù)文本輸入16和多個運行時控制參數(shù)值42產(chǎn)生了合成語音。在步驟44，根據(jù)一個輸入信號46產(chǎn)生了實時數(shù)據(jù)20，其中輸入信號46表征了語音對于收聽者的可懂性。如已經(jīng)說明過的，輸入信號46可以直接來源于環(huán)境中的背景噪聲，或來自一個收聽者(或其它使用者)。盡管如此，輸入信號46包含著有關(guān)語音可懂性的數(shù)據(jù)，從而代表了一個在運行時適配語音的有價值的信息源。在步驟48，根據(jù)實時數(shù)據(jù)20修改一個或更多的運行時控制參數(shù)值42，從而提高了語音的可懂性。
如已經(jīng)討論過的，一個實施例涉及根據(jù)包含在重放語音的環(huán)境中的背景噪聲產(chǎn)生實時數(shù)據(jù)20。因此，圖3示出了在步驟44產(chǎn)生實時數(shù)據(jù)20的優(yōu)選方式。更具體地講，可以看到，在步驟52將背景噪聲22轉(zhuǎn)換成一個電信號50。在步驟54，從一個模式數(shù)據(jù)庫(未示出)檢索出一個或更多的干擾模式56。因此，可以在步驟58根據(jù)電信號50和干擾模式56用實時數(shù)據(jù)20表示出背景噪聲22的特性。
圖4示出了在步驟58表示背景噪聲的特性的優(yōu)選方式。更具體地講，可以看到，在步驟60，對電信號50執(zhí)行了時域分析。產(chǎn)生的時間數(shù)據(jù)62提供了要在這里所述的操作中使用的大量信息。同樣地，在步驟64，對電信號50進行頻域分析，以獲得頻率數(shù)據(jù)66。應(yīng)當著重指出，執(zhí)行步驟60和64的順序?qū)τ诳傮w結(jié)果并不是關(guān)鍵。
也要著重指出，表征特性的步驟58涉及識別背景噪聲中各種類型的干擾。這些干擾例子包括，但不限于，高水平的干擾、低水平的干擾、瞬時干擾、連續(xù)干擾、變化的干擾和固定干擾。表征特性的步驟58也可以包括識別背景噪聲的潛在來源，識別背景噪聲的語音和確定所有這些源的位置。
現(xiàn)在轉(zhuǎn)到圖5，圖5詳細地示出了修改運行時控制參數(shù)值42的優(yōu)選方式。更具體地講，可以看到，在步驟68，接收到實時數(shù)據(jù)20，在步驟70，根據(jù)實時數(shù)據(jù)20識別出語音的有關(guān)特性72。有關(guān)特性72具有對應(yīng)的運行時控制參數(shù)。在步驟74，將調(diào)節(jié)值應(yīng)用到控制參數(shù)的參數(shù)值，從而以希望的方式改變語音的有關(guān)特性72。
現(xiàn)在轉(zhuǎn)到圖6，圖6詳細地示出了潛在的有關(guān)特性72。一般可以將有關(guān)特性72分類成說話者特性76，情緒特性77，方言特性78和內(nèi)容特性79?？梢园颜f話者特性76進一步分類成話音特性80和講話風格特性82。影響話音特性80的參數(shù)包括但不限于語音速率、音高(基本頻率)、音量、參量均衡、共振峰(共振峰頻率和帶寬)、聲門源、語音功率頻譜的擺動、性別、年齡和身份。影響講話風格特性82的參數(shù)包括但不限于動態(tài)韻律(例如，節(jié)奏、重音和音調(diào))和清晰度。因此，充分清晰地發(fā)出閉輔音等等，可以取得超清晰度，潛在地導(dǎo)致更好的可懂性。
諸如緊急性之類的有關(guān)情緒特性77的參數(shù)也可以用于吸引聽眾的注意力。可以通過發(fā)音和清晰度(共振峰，等等)影響方言特性78。應(yīng)當進一步理解，諸如冗余、重復(fù)和詞匯量之類的參數(shù)與內(nèi)容特性79有關(guān)。例如，利用同義字和短語在語音中添加或刪除冗余(例如，5PM＝5pm與下午五點)。重復(fù)包括有選擇地重復(fù)合成語音的某些部分，以便更好地強調(diào)重要內(nèi)容。此外，允許用有限的詞匯量和有限的句子結(jié)構(gòu)來減小語言的復(fù)雜性，也可以提高可懂性。
現(xiàn)在轉(zhuǎn)到圖1，應(yīng)當知道，可以與一個聲頻輸出系統(tǒng)84聯(lián)合地使用多音聲頻處理，以根據(jù)實時數(shù)據(jù)20改變語音14的空間位置。
從上述的說明中，熟悉本領(lǐng)域的人員現(xiàn)在可以知道，可以用各種不同的形式實現(xiàn)本發(fā)明的廣義地說明。因此，盡管可以結(jié)合本發(fā)明的特定例子說明本發(fā)明，但是，本發(fā)明的真實范圍應(yīng)當不限于此，因為熟悉本領(lǐng)域的實踐者在研究了附圖、說明書和附屬的權(quán)利要求之后，可以知道還有其它的修改形式。
權(quán)利要求
1.一種改進合成語音的方法，包括步驟根據(jù)文本輸入和多個運行時控制參數(shù)值產(chǎn)生合成語音；根據(jù)一個輸入信號產(chǎn)生實時數(shù)據(jù)，該輸入信號表征所述語音對于收聽者的可懂性；和根據(jù)實時數(shù)據(jù)修改一個或更多的運行時控制參數(shù)值從而提高語音的可懂性。
2.根據(jù)權(quán)利要求1所述的方法，進一步包括根據(jù)包含在語音重放的環(huán)境中的背景噪聲產(chǎn)生實時數(shù)據(jù)的步驟。
3.根據(jù)權(quán)利要求2所述的方法，進一步包括步驟將背景噪聲轉(zhuǎn)換成電信號；從模式數(shù)據(jù)庫檢索一個或更多的干擾模式；和根據(jù)電信號和干擾模式用實時數(shù)據(jù)表示出背景噪聲的特性。
4.根據(jù)權(quán)利要求3所述的方法，進一步包括對電信號進行時域分析的步驟。
5.根據(jù)權(quán)利要求3所述的方法，進一步包括對電信號進行頻域分析的步驟。
6.根據(jù)權(quán)利要求3所述的方法，其中表示特性的步驟是從實際上由下述步驟組成的組中選擇的識別背景噪聲中的高水平干擾；識別背景噪聲中的低水平干擾；識別背景噪聲中的瞬時干擾；識別背景噪聲中的連續(xù)干擾；識別背景噪聲中的變化干擾；識別背景噪聲中的固定干擾；識別背景噪聲源的空間位置；識別背景噪聲的潛在源；和識別背景噪聲中語音。
7.根據(jù)權(quán)利要求1所述的方法，進一步包括步驟接收實時數(shù)據(jù)；根據(jù)實時數(shù)據(jù)識別語音的有關(guān)特性，該有關(guān)特性具有對應(yīng)的運行時控制參數(shù)；和將調(diào)節(jié)值應(yīng)用到控制參數(shù)的參數(shù)值，從而以希望的方式改變語音的有關(guān)特性。
8.根據(jù)權(quán)利要求7所述的方法，進一步包括改變語音的有關(guān)說話者特性的步驟。
9.根據(jù)權(quán)利要求8所述的方法，進一步包括改變語音的有關(guān)話音特性的步驟。
10.根據(jù)權(quán)利要求9所述的方法，進一步包括改變從實際上由下面的特性組成的組中選擇的特性的步驟語音速率；音高；音量；參量均衡；共振峰頻率和帶寬；聲門源；語音功率頻譜擺動；性別；年齡；和身份。
11.根據(jù)權(quán)利要求8所述的方法，進一步包括改變語音的有關(guān)講話風格特性的步驟。
12.根據(jù)權(quán)利要求11所述的方法，進一步包括改變從實際是由下面的特性組成的組中選擇的特性的步驟動態(tài)韻律；和清晰度。
13.根據(jù)權(quán)利要求7所述的方法，進一步包括改變語音的有關(guān)情緒特性的步驟。
14.根據(jù)權(quán)利要求13所述的方法，進一步包括改變語音的緊急特性的步驟。
15.根據(jù)權(quán)利要求7所述的方法，進一步包括改變語音的有關(guān)方言特性的步驟。
16.根據(jù)權(quán)利要求15所述的方法，進一步包括改變從實際上由下面的特性組成的組中選擇的特性的步驟發(fā)音；和清晰度。
17.根據(jù)權(quán)利要求7所述的方法，進一步包括改變語音的有關(guān)內(nèi)容特性的步驟。
18.根據(jù)權(quán)利要求17所述的方法，進一步包括改變從實際上由下面的特性組成的組中選擇的特性的步驟重復(fù)；冗余；和詞匯量。
19.根據(jù)權(quán)利要求1所述的方法，進一步包括使用多音聲頻處理以根據(jù)實時數(shù)據(jù)改變語音的空間位置的步驟。
20.根據(jù)權(quán)利要求1所述的方法，進一步包括根據(jù)收聽者的輸入產(chǎn)生實時數(shù)據(jù)的步驟。
21.根據(jù)權(quán)利要求1所述的方法，進一步包括在汽車應(yīng)用中使用合成語音的步驟。
22.一種修改一個或多個語音合成器運行時控制參數(shù)的方法，包括步驟接收實時數(shù)據(jù)；根據(jù)實時數(shù)據(jù)識別合成語音的有關(guān)特性，該有關(guān)特性具有對應(yīng)的運行時控制參數(shù)；和將調(diào)節(jié)值應(yīng)用到控制參數(shù)的參數(shù)值，從而以希望的方式改變語音的有關(guān)特性。
23.根據(jù)權(quán)利要求22所述的方法，進一步包括改變語音的有關(guān)講話者特性的步驟。
24.根據(jù)權(quán)利要求23所述的方法，進一步包括改變語音的有關(guān)話音特性的步驟。
25.根據(jù)權(quán)利要求23所述的方法，進一步包括改變語音的有關(guān)講話風格特性的步驟。
26.根據(jù)權(quán)利要求22所述的方法，進一步包括改變語音的有關(guān)情緒特性的步驟。
27.根據(jù)權(quán)利要求22所述的方法，進一步包括改變語音的有關(guān)方言特性的步驟。
28.根據(jù)權(quán)利要求22所述的方法，進一步包括改變語音的有關(guān)內(nèi)容特性的步驟。
29.一種語音合成器適配系統(tǒng)，包括用于根據(jù)文本輸入和多個運行時控制參數(shù)值產(chǎn)生語音的文本到語音合成器；用于根據(jù)包含在語音重放環(huán)境中的背景噪聲產(chǎn)生實時數(shù)據(jù)的聲頻輸入系統(tǒng)；和連接到合成器和聲頻輸入系統(tǒng)的適配控制器，該適配控制器根據(jù)實時數(shù)據(jù)修改一個或多個的運行時控制參數(shù)值，從而降低背景噪聲與語音之間的干擾。
30.根據(jù)權(quán)利要求29所述的適配系統(tǒng)，其中聲頻輸入系統(tǒng)包括一個聲-電信號轉(zhuǎn)換器。
全文摘要
一種用于合成語音的運行時改進的方法和系統(tǒng)。方法包括根據(jù)文本輸入(16)和多個運行時控制參數(shù)值(42)產(chǎn)生合成語音的步驟(40)。根據(jù)一個輸入信號(46)產(chǎn)生實時數(shù)據(jù)(44)，其中輸入信號表征語音對于收聽者的可懂性。方法進一步提供了根據(jù)實時數(shù)據(jù)(20)修改(48)一個或更多的運行時控制參數(shù)值，從而提高語音的可懂性。在運行時而不是在設(shè)計階段修改參數(shù)值提供了通過慣用方式不能取得的自適應(yīng)水平。
文檔編號G10L21/00GK1549999SQ02806158
公開日2004年11月24日申請日期2002年3月7日優(yōu)先權(quán)日2001年3月8日
發(fā)明者彼得維普萊克申請人:松下電器產(chǎn)業(yè)株式會社

完整全部詳細技術(shù)資料下載