具有語音合成所使用的基本頻率模板的韻律數(shù)據(jù)庫的制作方法

文檔序號：2820342閱讀：250來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：具有語音合成所使用的基本頻率模板的韻律數(shù)據(jù)庫的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一般涉及數(shù)據(jù)處理系統(tǒng)，特別涉及到具有語音合成所使用的基本頻率模板的韻律數(shù)據(jù)庫(prosodic databases)。
正文-語音系統(tǒng)合成的是由輸入正文確定的語音，傳統(tǒng)的這種系統(tǒng)的一個缺陷就是它生成非常不自然的機(jī)械合成語音，這種合成的語音并不能表現(xiàn)出在人類語言中特有的韻律特征。多數(shù)傳統(tǒng)的正文-語音系統(tǒng)通過一組定義韻率參數(shù)隨時間變化的公式來生成韻律(prosody)。一般認(rèn)為韻律包括聲音持久長度，聲音響度和與聲音相結(jié)合的語調(diào)重音。某些正文語音系統(tǒng)已經(jīng)試圖利用隨機(jī)技術(shù)來增強(qiáng)系統(tǒng)最后合成語音的自然效果。這些隨機(jī)學(xué)習(xí)技術(shù)試圖根據(jù)對口語短語和句子的統(tǒng)計分析來決定韻律，然而這些隨機(jī)技術(shù)在持續(xù)的生成具有自然效果的語音方面也失敗了。
本發(fā)明的第一方面是在語音合成系統(tǒng)使用一種計算機(jī)實現(xiàn)方法。根據(jù)這種方法，要提供合成語音的正文，同時還要提供韻律模板。每個韻律模板具有一系列語音單位的基本頻率值。在建立正文合成語音的韻律時選擇一個模板。然后，至少用該模板的一個基本頻率來建立語音的韻律，正文就可以合成語音了。
本發(fā)明的另一方面是提供一個關(guān)于語音頻率基本單位的韻律數(shù)據(jù)庫。每一個韻律數(shù)據(jù)庫的入口都由一個聲調(diào)標(biāo)記模式進(jìn)行索引，這些聲調(diào)標(biāo)記與為其保存了基本頻率的語音單位的重音程度有關(guān)。再在給定正文上進(jìn)行自然語言語法分析，基于自然語法分析的結(jié)果，對正文中的語音單位的聲調(diào)標(biāo)記的預(yù)測模式就可以預(yù)測出來。通過對正文中語音單位的聲調(diào)標(biāo)記預(yù)測模式與韻律數(shù)據(jù)庫中各個入口的索引進(jìn)行比較，韻律數(shù)據(jù)庫中的一個最優(yōu)匹配索引就被識別出來了。在韻律數(shù)據(jù)庫由最優(yōu)匹配索引所指入口中，至少有一個基本頻率值可以用來建立正文合成語音時的韻律。
本發(fā)明的又一個方面是一種建立韻律數(shù)據(jù)庫的方法在計算機(jī)系統(tǒng)上實現(xiàn)了。當(dāng)口語教員所說口語正文中每個部分時都會對應(yīng)的獲得一個聲音信號，每個聲音信號是在口語教員說正文的相對應(yīng)部分時生成的。對于口語正文每個部分的嗓音記錄信號是在其說那個部分時從他所戴的嗓音記錄器中獲得的。聲音信號被分割成代表正文音節(jié)的片段，每一個音節(jié)包括一個元音部分。嗓音記錄信號被分成與聲音信號相匹配的片段。在正文的每一部分，每一音節(jié)元音部分的瞬時基本頻率的加權(quán)和被計算出來?；绢l率從嗓音記錄信號獲得而加權(quán)值從聲音信號中獲得。對正文的每一部分，韻律數(shù)據(jù)庫中每一正文部分音節(jié)的瞬時基本頻率加權(quán)和被存儲起來。這些加權(quán)和可以用來建立合成語音的韻律。
本發(fā)明的再一個方面是正文-語音系統(tǒng)包括了一個把正文轉(zhuǎn)換成語音單位的語法分析器，該系統(tǒng)還包括一個具有韻律模板的韻律數(shù)據(jù)庫，其中每一個韻律模板具有輸入正文中語音單位的一系列基本頻率值。除此之外，本系統(tǒng)還包括一個語音合成器，它通過使用在韻律數(shù)據(jù)庫中選好的一個模板來為輸入正文中每一語音單位獲取基本頻率值，從而生成相對于輸入正文的語音。
本發(fā)明的又一個方面是提供了一個具有不同類型語音韻律模板的韻律數(shù)據(jù)庫。決定用什么韻律類型來生成語音的哪一部分后，根據(jù)確定的韻律類型，至少用韻律數(shù)據(jù)庫中的一個模板結(jié)合已確定的韻律類型來生成語音部分。
本發(fā)明的再一個方面是提供了一個韻律數(shù)據(jù)庫，它為每一個說話者保存有不同韻律類型的韻律模板。決定了系統(tǒng)要生成的語音部分和使用哪一種韻律類型，至少要用韻律數(shù)據(jù)庫中一個模板為已確定的韻律類型生成語音部分。
本發(fā)明的一個實施例將在通過下列圖表來說明

圖1是一個適用于本發(fā)明實施例的計算機(jī)系統(tǒng)方框圖。
圖2是一個流程圖，描述了本發(fā)明實施例把一給定的輸入句子合成語音時的大體執(zhí)行步驟。
圖3是一方框圖，描述了本發(fā)明實施例的正文-語音模塊組件。
圖4是說明在韻律數(shù)據(jù)庫中建立一個入口時執(zhí)行步驟的流程圖。
圖5A顯示了一個聲音信號例子。
圖5B顯示了相對于圖5A聲音信號的嗓音信號舉例。
圖6是一個流程圖，它說明了當(dāng)韻律數(shù)據(jù)庫中找不到完全匹配值時獲得基本頻率值的執(zhí)行步驟。
本發(fā)明的實施例提供了一個或多個韻律數(shù)據(jù)庫，韻律數(shù)據(jù)庫中具有針對短語及句子的基本頻率模板，并存儲了多個說話者的韻律數(shù)據(jù)庫和不同韻律類型的多個數(shù)據(jù)庫，其中每一個數(shù)據(jù)庫起一種“聲音字模”的作用。利用韻律數(shù)據(jù)庫可以生成聽起來更自然的合成語音。在合成語音時，我們可以從這些聲音字模中進(jìn)行選擇來設(shè)置想要的韻律。更明確的說，可以使用一個韻律數(shù)據(jù)庫中的一個最優(yōu)匹配模板來確定基本頻率，這些基本頻率在合成語音輸出時分配給各音節(jié)。本發(fā)明實施例中正文-語音系統(tǒng)的正文輸入經(jīng)過處理用來確定韻律數(shù)據(jù)庫中的最優(yōu)匹配模板。如果沒找到一個完全合適的匹配，可以用添加技術(shù)在最優(yōu)匹配模板的空白區(qū)生成一個匹配。這樣最后生成的合成語音將比傳統(tǒng)的正文-語音系統(tǒng)的合成語音聽起來更自然。
每一個韻律數(shù)據(jù)庫是通過讓說話者說一些未標(biāo)記的句子集中的句子來建立的。接著，這些句子被一個自然語言處理器處理并用隱式馬爾科夫模型(HMM)技術(shù)分割成音素和音節(jié)。對每一個口語句子都要生成嗓音記錄輸出。對應(yīng)于用HMM技術(shù)對麥克風(fēng)信號的分片，這個嗓音記錄輸出也要被分片。對被分片的嗓音記錄輸出進(jìn)行處理可以決定每個音節(jié)的元音部分的加權(quán)基本頻率，這些加重基本頻率存儲在韻律數(shù)據(jù)庫的入口中，而這些入口由聲調(diào)標(biāo)記來索引。
本發(fā)明的實施例提供了一種簡捷的方法來確定給定說話者的韻律。這種方法可以推廣到普遍應(yīng)用于各種類型的正文。示范實施例還提供了一種機(jī)制，這種機(jī)制易于培訓(xùn)，并且可以生成聽起來更象培訓(xùn)系統(tǒng)的原說話者的聲音。
圖1描畫了適用于運行本發(fā)明的實施例的計算機(jī)系統(tǒng)10，使熟練的技術(shù)人員高興的是，在圖1中描畫的計算機(jī)系統(tǒng)配置只是用來說明，它并不限制本發(fā)明。本發(fā)明還可以在其他計算機(jī)系統(tǒng)配置上實施，包括分布式系統(tǒng)和緊密耦合多處理器系統(tǒng)。
計算機(jī)系統(tǒng)10包括一個中央處理器(CPU)12和許多輸入輸出設(shè)備。比如說，這些設(shè)備可以包括一個鍵盤14，顯示器16，和一個鼠標(biāo)18。CPU12可以對存儲器20存取。存儲器20里放有正文-語音模塊(text-tospeech facility(TTS)28的拷貝。正文-語音模塊28具有運行本發(fā)明實施例的指令。計算機(jī)系統(tǒng)10還可以包括一個網(wǎng)絡(luò)適配器22，用來連接CPU12和網(wǎng)絡(luò)24。計算機(jī)系統(tǒng)10還可以加上一個調(diào)制解調(diào)器26和一個聲音輸出設(shè)備27(如一個揚(yáng)聲器)用來輸出語音。
正文-語音模塊28包括一個或多個韻律數(shù)據(jù)庫，對一個說話者可以保存多個數(shù)據(jù)庫。例如，一個說話者可以為不同地區(qū)的口音分別生成一個數(shù)據(jù)庫，其中每種口音都有它自己的韻律類型，甚至于一個說話者可以為讀新聞廣播建立一數(shù)據(jù)庫，而為讀兒童讀物建立另一數(shù)據(jù)庫，并且不同的說話者還可以有不同的韻律數(shù)據(jù)庫，象剛才所提到的，每一個數(shù)據(jù)庫都可以看作一個獨立的“聲音字?！?。
圖2是本發(fā)明實施例為輸入的一個正文句子生成合成語音的總體步驟流程圖。如果要處理多個輸入正文的句子，圖2所描述的很多步驟(如32步-44步)可能會為每個句子重復(fù)執(zhí)行。圖2的流程圖將同圖3一起說明，圖3說明了本發(fā)明實施例的正文語音能力28的基本組織。本發(fā)明實施例執(zhí)行的第一步是建立一個韻律數(shù)據(jù)庫(圖2中步驟30)。韻律數(shù)據(jù)庫是圖3所描述的韻律模板的一部分。模板60可能包括多個韻律數(shù)據(jù)庫或聲音字模。根據(jù)以上討論每一個韻律數(shù)據(jù)庫都是按下面的方式生成的，即先讓說話者從一個未標(biāo)記的句子集中選一些句子說出來并且收集生成的相似語音信號和嗓音記錄輸出，然后處理這些數(shù)據(jù)來建立韻律數(shù)據(jù)庫。
圖4是表示建立韻律數(shù)據(jù)庫的更詳細(xì)執(zhí)行步驟，圖4中的步驟對說話者所說的未標(biāo)記集50中每一個句子都要執(zhí)行，這樣首先得到了口語訓(xùn)練句子的嗓音記錄信號(圖4中步驟70)。
圖5A描畫了一個麥克風(fēng)語音信號的例子，圖5B描述了一個相對應(yīng)的嗓音記錄信號。這個信號提供了一個說話者的聲帶在某個時間點上如何開關(guān)，訓(xùn)練句子以音素和音節(jié)所進(jìn)行的分段將被收到并用來以一種類似的方式分割嗓音記錄信號(圖4中步驟72)。說的明確些，就象一個麥克風(fēng)信號被分割成大小相等的時間段一樣，嗓音記錄信號被分成片段。特別的，隱式馬爾代夫模型(HMM)訓(xùn)練52在未標(biāo)記集50的口語句子上執(zhí)行以生成分片集54。HMM技術(shù)在技術(shù)領(lǐng)域很有名。一個合適的HMM訓(xùn)練技術(shù)在COPENDING應(yīng)用NO.08/655,273中有說明，名字是“利用連續(xù)密度隱式馬爾代夫模型合成語音的方法和系統(tǒng)”，這篇文章寫于1996年5月1日，并且它同本應(yīng)用一起被轉(zhuǎn)讓給一個公共受讓人。這些HMM技術(shù)會生成由音素和音節(jié)劃分的語音信號。本發(fā)明的實施例特別注重的就是音節(jié)劃分。
嗓音記錄經(jīng)處理后來識別轉(zhuǎn)折信息和生成瞬時基本頻率(F0)信息。在本文中，一個轉(zhuǎn)折是指聲帶張開和關(guān)閉的持續(xù)時間。換句話說，一個轉(zhuǎn)折對應(yīng)于聲帶的一次開合?；绢l率是指說話者的聲帶對一個音節(jié)振動的基本頻率。這就是在本發(fā)明實施例中最受重視的韻律參數(shù)。轉(zhuǎn)折信息是從嗓音記錄信息持續(xù)時間的一個平滑估計的局部極大值中得出。
元音區(qū)之所以被選擇用來分析是因為通常它是音節(jié)中最重音的部分，加權(quán)F0是由一個從音節(jié)元音部分對應(yīng)的嗓音記錄信息取出的瞬時基本頻率值的加權(quán)和而算出來的，更正式一些，加權(quán)基本頻率可以用數(shù)學(xué)公式來表示加權(quán)F0=Σi=1nWiF0i/Σi=1nWi]]>其中wi表示權(quán)值，F(xiàn)0i表示時刻i的基本頻率。頻率F0i就是嗓音記錄信息中相鄰峰間隔時間的倒數(shù)，通常一個音節(jié)的元音部分將包括多個高峰，權(quán)值W從聲音信號中得出，其公式化表示為W=Σt=tatbA(t)2]]>其中A(t)＝聲音信號在時刻t的振幅。Ta＝第一峰值的時間，Tb＝第二峰值的時間，Ta和Tb的值分別代表對應(yīng)于嗓音記錄信息第一峰值和第二峰值的時間點。這個加權(quán)方案導(dǎo)致在計算每一音節(jié)敏感加重F0時給大量的速度信息部分賦予更大權(quán)值，加權(quán)方案給F0曲線中非常重要的部分更大的權(quán)值(如振幅大的地方)。
對句子進(jìn)行自然語言處理(NLP)(如執(zhí)行正文分析56)，并且從自然語言處理中得到的信息用來預(yù)測聲調(diào)標(biāo)記(圖4中步驟76)。許多熟知技術(shù)中的任何一個都可用于執(zhí)行這一語法分析。自然語言處理對這些句子進(jìn)行語法分析，最后，生成語音部分的識別，及上下文單詞，句子的語法結(jié)構(gòu)，句子類型和句子中單詞發(fā)音的識別，從這樣一個NLP語法分析器得到的信息用來為句子中每個音節(jié)預(yù)測聲調(diào)標(biāo)記?，F(xiàn)在已經(jīng)知道，許多人類的語音韻律模式可以通過給每個音節(jié)預(yù)測三個聲調(diào)標(biāo)記中的一個而捕捉到。這三個聲調(diào)是高音，低音和無重音。本發(fā)明的實施例在每一音節(jié)基礎(chǔ)上對經(jīng)語法分析后的輸入句子預(yù)測了聲調(diào)模式。預(yù)測和賦予聲調(diào)符號的方法在JohnGoldsmith于1978年信息和認(rèn)知上發(fā)表的“英語作為一種口語”及Janet Pierrehumbert在曼徹斯特技術(shù)學(xué)院所作的博士論文“英語語調(diào)中的音韻學(xué)與語音學(xué)”中有說明。舉例來說，一個聲調(diào)符號串是“2H0H0N0L1-”。這個串由數(shù)字及從集合H，L，h，l，+，-中取出的符號組成。這些符號表示某些高突出音節(jié)的聲調(diào)性質(zhì)，主要是重音和最后音節(jié)，數(shù)字表示在這些重音及最后音節(jié)間的音節(jié)個數(shù)，H和L分別表示加重音節(jié)的高調(diào)和低調(diào)；+，-分別表示最后音節(jié)的高調(diào)和低調(diào)；而h和l則分別表示加重音節(jié)后面最左音節(jié)的高調(diào)和低調(diào)(或者如果加重音節(jié)后面沒有音節(jié)時指示加重音節(jié)本身)。
在韻律數(shù)據(jù)庫中要生成一個入口(entry)來存放句子音節(jié)的加權(quán)基本頻率序列。每個入口由相關(guān)聯(lián)的句子聲調(diào)標(biāo)記串來進(jìn)行索引(圖4中步驟78)?；绢l率值在韻律數(shù)據(jù)庫中可能以無符號字符值形式存貯。上面說明的是為每一個句子建立韻律數(shù)據(jù)庫時的執(zhí)行步驟。一般而言，本發(fā)明實施例采用的韻律模型用分割和文字分析來建立韻律模板60。
當(dāng)一個韻律數(shù)據(jù)庫建立后(見圖2步驟30)，數(shù)據(jù)庫可以在語音合成中使用。語音合成中的第一步是識別要生成的語音(圖2中步驟32)。在本發(fā)明的實施例中，這個語音就是代表一個句子的大量文字。不過，令熟練的技術(shù)人員欣喜的是，本發(fā)明也適用于其他正文單位，包括短語，詞甚至于段落。合成階段48(圖3)的下一步是把輸入正文進(jìn)行語法分析并為輸入的句子生成一個聲調(diào)預(yù)測(圖2中步驟34)。一般而言，上面討論的同一個自然語言處理用來決定輸入正文的語音部分、語法結(jié)構(gòu)、單詞發(fā)音和句子類型識別。這個過程在圖3正文分析框56中標(biāo)明了。利用上面提到的Goldsmith的技術(shù)，聲調(diào)標(biāo)記可以根據(jù)從自然語言處理語法分析器中得到的信息來預(yù)測。本實施例的這個方面在合成部分48的韻律生成階段66中執(zhí)行。
給定預(yù)測的聲調(diào)標(biāo)記，就可以用預(yù)測的聲調(diào)標(biāo)記作為索引(圖2中步驟36)對韻律數(shù)據(jù)中的韻律模板60進(jìn)行存取了(圖2中步驟60)。首先要判斷是否有完全的匹配(如，一個與輸入句子的預(yù)測值相同的聲調(diào)標(biāo)記模式所索引的入口)(圖2中步驟38)。如果那兒有一個匹配入口，入口中保存的加權(quán)的基本頻率可用來對輸入句子的合成語音建立韻律數(shù)據(jù)庫，然后系統(tǒng)推進(jìn)到利用這些加權(quán)基本頻率來生成語音輸出(圖2中步驟44)。如圖3所示，本發(fā)明的實施例采用了一種連鎖方法來合成語音。特別的，對分段集55進(jìn)行處理來識別聲音單位，象二聲調(diào)(diphones)、三聲調(diào)(triphones)等，它們被用來生成合成語音。這個處理過程在圖3的單位生成階段46中說明并生成一個單位詳表62。輸入正文句子的一個合適的單位集合從單位詳表62中抽取出來并連接后用來生成合成語音輸出，韻律數(shù)據(jù)庫中的基本頻率用來建立合成語音輸出的韻律。
如果在圖2步驟38找不到一個完全精確的匹配，就在韻律數(shù)據(jù)庫中找出最優(yōu)匹配入口，然后修改最優(yōu)匹配入口的基本頻率值，使之最接近地匹配修改的基本頻率，就可以在生成合成語音輸出(見圖2中步驟42和44)中使用。
本發(fā)明的實施例使用了一種優(yōu)化查找策略來確定最優(yōu)匹配入口。具體說，將預(yù)測聲調(diào)標(biāo)記與韻律數(shù)據(jù)庫入口的聲調(diào)標(biāo)記索引進(jìn)行比較，然后給聲調(diào)標(biāo)記索引根據(jù)它們與預(yù)測聲調(diào)標(biāo)記的相似程度打上分。也就是，在預(yù)測的聲調(diào)標(biāo)記，即索引聲調(diào)標(biāo)記上執(zhí)行動態(tài)規(guī)劃(如Viterbi查找)(圖6步驟82)。為了詳盡地說明Viterbi算法，需要先建立一些術(shù)語。Viterbi算法要為一個給定觀察序列找到一個最佳狀態(tài)序列。狀態(tài)序列用q來表示，q等于(q1，q2，....qt)；給定觀察序列用O＝(O1，O2...Ot)來表示；λ是參數(shù)集合，其中T是各狀態(tài)或觀察序列的標(biāo)記。在一條路徑上時刻T的最優(yōu)值，說明了第一個t觀察并在狀態(tài)i結(jié)束，它的定義如下δt(i)=maxq1,q2....,qt-1P[q1q2...qt-1,qt=i,o1o2...ot|λ]]]>在本文中，每一個聲調(diào)標(biāo)記代表一個狀態(tài)，并且每個聲調(diào)標(biāo)記的值代表一個觀察。Viterbi算法可以正式詳述為1.初始化δ1(i)＝π1b1(o1)，1≤i≤N1(i)＝0.其中N＝狀態(tài)數(shù)；πi＝P[qi＝i]；2.循環(huán)
其中aij＝從狀態(tài)i到狀態(tài)j的狀態(tài)轉(zhuǎn)變概率bj(ot)＝對狀態(tài)j來說ot被觀察到的觀察概率
3.終止P*=maxl≤i≤N[δT(i)]]]>q*T=argmaxl≤i≤N[δT(i)].]]>4.回溯路徑(狀態(tài)序列)q*t＝t+1(q*t+1)，t＝T-1，T-2，...1.
因此，象圖6所描述的，Viterbi算法用來找最佳匹配(步驟82)。這個算法被修改可以提供快速輸出。具體來說，這個系統(tǒng)跟蹤了當(dāng)前找到的最低耗費方案，并且對每一后繼串當(dāng)發(fā)現(xiàn)修改串的最小耗費超出前面找出的最優(yōu)串的耗費時立即退出該算法。耗費可以在許多由經(jīng)驗得出的方法中獲得，一種解決方案是賦予兩個數(shù)字間的差異耗費，這里指預(yù)測聲調(diào)模式串的數(shù)字與索引聲調(diào)模式串的數(shù)字匹配。因此，如果預(yù)測的聲調(diào)模式串在一個位置存有一個值2，而在聲調(diào)模式串相同位置的值是3，這種不匹配就可被賦予耗費值1，由于含有無重音字符或由于刪除而造成的字符的不匹配，被賦予耗費值10。
這種快速輸出方法實質(zhì)上刪減了搜尋區(qū)域，因此那些明顯不是最好匹配的聲調(diào)模式盡可能快地被排除了。因此，計算開支減少了。
本系統(tǒng)然后試圖修改基本頻率的最優(yōu)匹配串，用來得到一個更接近的匹配序列。特別的，基本頻率被修改，是為了最優(yōu)匹配索引和預(yù)測的聲調(diào)模式的差異，這些差異的根據(jù)是兩個串上表現(xiàn)為連續(xù)的未標(biāo)記音節(jié)數(shù)目的不同?；绢l率的最優(yōu)匹配串的不同部分然后在該區(qū)域原來的基本頻率值間被線性加入修改，以形成一個連續(xù)函數(shù)。這個范圍然后被分成需要的新數(shù)目的區(qū)域，并在這些點被重新抽樣，以建立一個新的不連續(xù)點集合，它代表這個區(qū)域的想要的輸出基本頻率樣本點。看一下聲調(diào)標(biāo)記模式為“H5H”的最優(yōu)匹配索引這個例子。這個模式表明，第一音節(jié)有一高音標(biāo)記，后面跟著五個未標(biāo)記音節(jié)，這些未標(biāo)記音節(jié)依次后面都跟有一個高音標(biāo)記音節(jié)。假設(shè)預(yù)測的聲調(diào)模式是“H4H”，最優(yōu)匹配索引有一個額外的未標(biāo)記音節(jié)，它必須被修改，以生成四個未標(biāo)記音節(jié)。最優(yōu)匹配韻律數(shù)據(jù)庫入口的七個基本頻率值被處理后，在七個點之間被線性添加，以生成一個由6個線性片段組成的一個連續(xù)函數(shù)，這里6個線性片段在中間的四個新的未標(biāo)記點被重新抽樣，并且對應(yīng)于高音標(biāo)記的結(jié)束點，保留兩個以前的基本頻率值。結(jié)果會生成一個基本頻率的匹配模式。
本發(fā)明實施例的一個主要優(yōu)點是它允許選擇希望合成的語音類型。多個聲音字模提供了一種能力，即可以對某個說話者方便迅速地生成不同的個人類型。生成的語音不必都是一個韻律類型，也不必都從一個講話者中生成。
本發(fā)明用一個參照實施例來描述，而使那些熟練的技術(shù)人員高興的是，不需要違背附加的權(quán)利需求書中所定義的本發(fā)明的設(shè)定范圍，就可以進(jìn)行形式和細(xì)節(jié)的各種變化。例如，本發(fā)明可以對短語進(jìn)行語法分析而不是對句子分析，而且可以在使用另一種語音單位(如音素)的系統(tǒng)上運行并且可以采用其它分割技術(shù)。
權(quán)利要求
1.語音合成系統(tǒng)中的一種方法，包括以下計算機(jī)可實現(xiàn)的步驟提供要合成語音的正文；提供韻律模板，其中每個韻律模板具有語音單位的基本頻率值序列；選擇一個模板以供正文合成語音時建立韻律之用；把正文合成語音，從選擇的模板中至少使用一個基本頻率來建立語音韻律。
2.權(quán)利要求1的方法，還包括把正文分解成語音單位的步驟，來為正文建立片段。
3.權(quán)利要求1中的方法，其中語音單位是音節(jié)。
4.權(quán)利要求1中的方法，其中在正文中用的是短語。
5.權(quán)利要求1中的方法，其中在正文中用的是一個句子。
6.權(quán)利要求1中的方法，其中是用一個聲調(diào)重音標(biāo)記模式來進(jìn)行索引每個韻律模板，其中為正文中每個語音單位提供聲調(diào)標(biāo)記。
7.權(quán)利要求6的方法，還包括了為正文生成預(yù)測聲調(diào)標(biāo)記模式的步驟，其中選擇模板時要選擇其索引與預(yù)測聲調(diào)標(biāo)記模式最優(yōu)匹配的那一個模板。
8.在用于合成語音的系統(tǒng)中的一個計算機(jī)可讀的存貯介質(zhì)，其具有執(zhí)行一種方法的指令，這種方法包括了下述計算機(jī)可執(zhí)行步驟提供要合成語音的正文；提供韻律模板，其中每個韻律模板具有語音單位的基本頻率值序列；選擇一個模板以供正文合成語音時建立韻律之用；把正文合成語音，從選擇的模板中至少使用一個基本頻率來建立語音韻律。
9.權(quán)利要求書8的計算機(jī)可讀存貯介質(zhì)，其中存貯介質(zhì)還存貯把正文分割成語音單位的指令。
10.權(quán)利要求書9的計算機(jī)可讀存貯介質(zhì)，其中使用的語音單位是音節(jié)。
11.權(quán)利要求書8的計算機(jī)可讀存貯介質(zhì)，其中，每個韻律模板由聲調(diào)重音標(biāo)記模式來索引，其中為正文中的每個語音單位提供聲調(diào)標(biāo)記。
12.權(quán)利要求9的計算機(jī)可讀存儲介質(zhì)，其中方法進(jìn)一步包括下面步驟為正文生成一個預(yù)測聲調(diào)標(biāo)記模式；而且在選擇模板時要選擇其索引與預(yù)測聲調(diào)模式最優(yōu)匹配的一個。
13.在合成語音系統(tǒng)中的一種方法，包括下列計算機(jī)可執(zhí)行的步驟為語音單位提供一個含有基本頻率的韻律數(shù)據(jù)庫，所說的韻律的數(shù)據(jù)庫的每個入口由一種聲調(diào)標(biāo)記模式來索引，這些聲調(diào)標(biāo)記模式同那些具有基本頻率的語音單位的重音重音程度相對應(yīng)；在給定正文上執(zhí)行一個自然語法分析；根據(jù)自然語言語法分析的結(jié)果，為正文中的語音單位預(yù)測一個預(yù)測聲調(diào)標(biāo)記模式；在韻律數(shù)據(jù)庫中通過把正文語音單位的預(yù)測聲調(diào)標(biāo)記模式與韻律數(shù)據(jù)中的多個入口索引進(jìn)行比較，識別出一個最優(yōu)匹配索引；在由最優(yōu)匹配索引所指出的韻律數(shù)據(jù)庫入口中，用至少一個基本頻率值來在正文合成語音中建立韻律。
14.權(quán)利要求13的方法，其中最優(yōu)匹配索引完全同預(yù)測聲調(diào)標(biāo)記模式相匹配。
15.權(quán)利要求13的方法，其中，由最優(yōu)匹配索引所指向的入口中所有基本頻率值都將用來建立韻律。
16.權(quán)利要求13的方法，其中，最優(yōu)匹配索引不是完全與預(yù)測聲調(diào)標(biāo)記模式相匹配。
17.權(quán)利要求13方法，其中，聲調(diào)標(biāo)記包括一個高重音聲調(diào)標(biāo)記，一個低重音聲調(diào)標(biāo)記，一個非特別重音聲調(diào)標(biāo)記和一個表示未標(biāo)記重音聲調(diào)的標(biāo)記。
18.權(quán)利要求17的方法，其中最優(yōu)匹配索引與聲調(diào)標(biāo)記預(yù)測模式在語音單位上的連續(xù)未標(biāo)記重音的數(shù)目不同。
19.權(quán)利要求18的方法，還包括下列步驟識別出最優(yōu)匹配索引中同聲調(diào)標(biāo)記預(yù)測模式不匹配的部分和它所指向的韻律數(shù)據(jù)庫的入口中基本頻率值，該入口由與該最匹配索引的不匹配部分相對應(yīng)的最匹配索引所索引；在由最優(yōu)匹配索引所指的韻律數(shù)據(jù)庫入口的綁定基本頻率值間，使用線性插入方法來生成一個限定基本頻率值間的連續(xù)函數(shù)，其中這些最優(yōu)匹配索引把識別出的基本頻率值綁定在對應(yīng)于最優(yōu)匹配索引非匹配部分的入口中；重新對連續(xù)函數(shù)取樣，獲得若干未標(biāo)記重音語音單位的基本頻率值，它們同在預(yù)測聲調(diào)模式中連續(xù)未標(biāo)記重音標(biāo)記的數(shù)目相匹配；及用重取樣獲得的基本頻率值，來為正文合成語音建立韻律。
20.權(quán)利要求13的方法，其中，使用Viterbi查找算法來識別最優(yōu)匹配索引。
21.在合成語音系統(tǒng)中的一個計算機(jī)可讀存貯介質(zhì)，具有執(zhí)行一種方法的指令，這種方法包括以下計算機(jī)可實現(xiàn)的步驟為語音單位的基本頻率提供一個韻律數(shù)據(jù)庫，所述韻律數(shù)據(jù)庫中每個入口都由一種聲調(diào)標(biāo)記來索引，這些聲調(diào)標(biāo)記同為其保存了基本頻率的語音單位的重音程度相對應(yīng)；在給定正文上執(zhí)行一個自然語言語法分析；根據(jù)自然語言語法分析的結(jié)果，為正文的語音單位預(yù)測一個聲調(diào)標(biāo)記的預(yù)測模式；通過對正文中語音單位的預(yù)測聲調(diào)標(biāo)記模式與韻律數(shù)據(jù)庫中入口的索引相比較，在韻律數(shù)據(jù)庫中識別出一個最優(yōu)匹配索引；并且在由最優(yōu)匹配索引所指向的韻律數(shù)據(jù)庫入口中，使用至少一個基本頻率值以為正文合成語音時建立韻律。
22.權(quán)利要求21的計算機(jī)可讀存貯介質(zhì)，其中，最優(yōu)匹配索引完全同聲調(diào)標(biāo)記的預(yù)測模式相匹配。
23.權(quán)利要求21的計算機(jī)可讀存貯介質(zhì)，其中，由最優(yōu)匹配索引所指向的入口的所有基本頻率值都用來建立韻律。
24.權(quán)利要求21的計算機(jī)可讀存貯介質(zhì)，其中，最優(yōu)匹配索引不是與預(yù)測聲調(diào)模式完全匹配。
25.權(quán)利要求21的計算機(jī)可讀存貯介質(zhì)，其中，聲調(diào)標(biāo)記包括一個高重音聲調(diào)標(biāo)記，一個低重音聲調(diào)標(biāo)記，一個非特別重音聲調(diào)標(biāo)記和一個表示未標(biāo)記重音聲調(diào)標(biāo)記的標(biāo)記。
26.權(quán)利要求25的計算機(jī)可讀存貯介質(zhì)，其中，最優(yōu)匹配索引與聲調(diào)標(biāo)記預(yù)測模式在語音單位上的連續(xù)未標(biāo)記重音的數(shù)目不同。
27.權(quán)利要求26中計算機(jī)可讀存貯介質(zhì)，其中還具有有以下功能的指令識別出最優(yōu)匹配索引中同聲調(diào)標(biāo)記預(yù)測模式不匹配的部分和由與該最匹配索引的不匹配部分相對應(yīng)的該最匹配索引所指向的韻律數(shù)據(jù)庫的入口中的基本頻率值；在由最優(yōu)匹配索引所指向的韻律數(shù)據(jù)庫入口的綁定基本頻率值間，使用線性插入方法來生成一個限定基本頻率值間的連續(xù)函數(shù)，其中這些最優(yōu)匹配索引把識別出的基本頻率值綁定在對應(yīng)于最優(yōu)匹配索引非匹配部分的入口中；重新對連續(xù)函數(shù)取樣，獲得若干未標(biāo)記重音語音單位的基本頻率值，它們同在預(yù)測聲調(diào)模式中連續(xù)未標(biāo)記重音標(biāo)記的數(shù)目相匹配及接著用重取樣獲得的基本頻率值，來為正文合成語音建立韻律。
28.權(quán)利要求21的計算機(jī)可讀存貯介質(zhì)，其中，使用Viterbi搜索算法來識別最優(yōu)匹配索引。
29.在計算機(jī)系統(tǒng)中建立韻律數(shù)據(jù)庫的一種方法，包括以下計算機(jī)可實現(xiàn)的步驟為口語教員說出的口語正文的每一個相對應(yīng)部分獲得一個聲音信號，每個所述聲音信號都是在口語教員說出正文的相對應(yīng)部分時生成的信號；當(dāng)口語教員說正文時，從他所戴的嗓音記錄器中對每個正文部分獲得一個嗓音記錄信號；把聲音信號分割成代表正文中音節(jié)的片段，其中正文的每個音節(jié)上都包括一個元音部分；把嗓音記錄信號分成同聲音信號片段相匹配的片段；在每個正文部分，為每個音節(jié)的元音部分計算一個瞬時基本頻率的加權(quán)和，其中基本頻率從嗓音記錄信號獲得而加權(quán)值從聲音信號獲得；對正文的每個部分，在韻律數(shù)據(jù)庫中存貯各音節(jié)的瞬時基本頻率加權(quán)和，并且用韻律數(shù)據(jù)庫中瞬時基本頻率的加權(quán)和來建立合成語音的韻律。
30.權(quán)利要求29的方法，其中，對每個音節(jié)的元音部分在嗓音記錄信號中都包括峰值，并且其中的每個瞬時基本頻率被計算成相鄰峰間隔時間的倒數(shù)。
31.權(quán)利要求30中的方法，其中，每個瞬時基本頻率，都是根據(jù)對應(yīng)于嗓音記錄信號相鄰峰的聲音信號部分的聲音信號大小來加權(quán)的。
32.計算機(jī)系統(tǒng)中的計算機(jī)可讀存貯介質(zhì)，存貯用于建立韻律數(shù)據(jù)庫的指令，包括下列步驟為口語教員說出的口語正文的多個相對應(yīng)部分的每一個獲得一個聲音信號，每個所述聲音信號都是在口語教員說出正文的相對應(yīng)部分時生成的信號；當(dāng)口語教員說正文時，從他所戴的嗓音記錄器中對每個正文部分獲得一個嗓音記錄信號；把聲音信號分割成代表正文中音節(jié)的片段，其中正文的每個音節(jié)上都有一個元音部分；把嗓音記錄信號分成同聲音信號片段相匹配的片段；在每個正文部分，為每個音節(jié)的元音部分計算一個瞬時基本頻率的加權(quán)和，其中基本頻率從嗓音記錄信號獲得而加權(quán)值從聲音信號獲得；對正文的每個部分，在韻律數(shù)據(jù)庫中存貯各音節(jié)的瞬時基本頻率加權(quán)和，并且用韻律數(shù)據(jù)庫中瞬時基本頻率的加權(quán)和來建立合成語音的韻律。
33.一個正文-語音系統(tǒng)，包括一個語法分析器，用于把輸入的正文進(jìn)行語法分析，變成語音單位；一個具有韻律模板的韻律數(shù)據(jù)庫，其中每個韻律模板為語音單位保存有基本頻率值序列；一個語音合成器，它通過使用在韻律數(shù)據(jù)庫中選擇好的一個模板來生成與輸入正文相對應(yīng)的語音以獲得輸入正文語音單位的基本頻率值。
34.權(quán)利要求33的正文-語音系統(tǒng)，其中該系統(tǒng)還包括一個聲調(diào)模式預(yù)測器，用于為輸入正文預(yù)測聲調(diào)模式，其中語音合成器使用輸入正文預(yù)測聲調(diào)模式來選擇韻律數(shù)據(jù)庫中的模板。
35.生成語音的系統(tǒng)中的一種方法，包括下列計算機(jī)可實現(xiàn)的步驟提供了具有不同種類型語音的韻律模板的韻律數(shù)據(jù)庫；決定哪種韻律類型將應(yīng)用到要合成的語音部分；及對確定了的韻律類型，要使用韻律數(shù)據(jù)庫中的至少一個模板來生成具有確定的韻律類型的語音部分。
36.生成語音系統(tǒng)中的一個計算機(jī)可讀存貯介質(zhì)，具有計算機(jī)可執(zhí)行的指令，以執(zhí)行一種包括下列計算機(jī)可實現(xiàn)的步驟的方法提供了具有不同語音類型的韻律模板的韻律數(shù)據(jù)庫；決定哪種韻律類型將應(yīng)用到要合成的語音部分；及對確定了的韻律類型，要使用韻律數(shù)據(jù)庫中的至少一個模板來生成具有確定的韻律類型的語音部分。
37.生成語音的系統(tǒng)中的一種方法，包括下列計算機(jī)可實現(xiàn)的步驟為單個說話者提供具有不同韻律類型的韻律模板的韻律數(shù)據(jù)庫；決定哪一個韻律類型將應(yīng)用在要生成的語音部分；及對確定了的韻律類型，使用韻律數(shù)據(jù)庫中的至少一個模板來生成具有確定韻律類型的語音部分。
38.生成語音系統(tǒng)中的一個計算機(jī)可讀存貯介質(zhì)，具有計算機(jī)可執(zhí)行指令，以執(zhí)行一種包括下列計算機(jī)可實現(xiàn)步驟的方法為單個說話者提供具有不同韻律類型的韻律模板的韻律數(shù)據(jù)庫；決定哪種韻律類型將應(yīng)用到要生成的語音部分；及對確定了的韻律類型，使用韻律數(shù)據(jù)庫中的至少一個模板來生成具有確定韻律類型的語音部分。
全文摘要
韻律數(shù)據(jù)庫具有用于語音合成系統(tǒng)的基本頻率模板,韻律數(shù)據(jù)庫模板具有給定句子中各音節(jié)的基本頻率值,這些基本頻率值可以用于合成語音句子。這些模板由聲調(diào)模式標(biāo)記來索引。對每一個要合成語音的正文句子,都要生成一個預(yù)測的聲調(diào)標(biāo)記模式,并且用這個聲調(diào)標(biāo)記的預(yù)測模式來確定一個最優(yōu)匹配模板。這些模板是在由口語教員所說的一個未標(biāo)記句子集中句子的研究基礎(chǔ)上,通過計算基本頻率而得到的。
文檔編號G10L11/00GK1179587SQ9711959
公開日1998年4月22日申請日期1997年9月29日優(yōu)先權(quán)日1996年9月30日
發(fā)明者學(xué)東·D·黃, 詹姆斯·L·阿多克, 約翰·A·古德史密斯申請人:微軟公司

完整全部詳細(xì)技術(shù)資料下載