韻律語音文本代碼以及它們在計算機化語音系統(tǒng)中的使用的制作方法

文檔序號：2828982閱讀：432來源：國知局

專利名稱：韻律語音文本代碼以及它們在計算機化語音系統(tǒng)中的使用的制作方法
技術領域：
本發(fā)明涉及用于使用新穎的韻律語音文本代碼，通常從文本輸入提供合成的或人工語音的方法和計算機化系統(tǒng)。
合成的、人工或機器語音具有許多有用的應用，例如，在語音郵件系統(tǒng)、以電子方式啟用的設備、汽車、計算機、機器人助理、游戲等等中，在會說話的書和雜志、戲劇及其他娛樂中。本發(fā)明延伸到在任何這樣的系統(tǒng)中的實現(xiàn)，這從下面的說明中是顯而易見。
用于生成人工語音的有用的已知系統(tǒng)一般被描述為級聯(lián)的系統(tǒng)或共振峰系統(tǒng)。級聯(lián)的人工語音系統(tǒng)例如可用于交互語音郵件系統(tǒng)中并使用預先錄制的完整的短語或句子來產(chǎn)生可容忍的人類語音。然而，這樣的系統(tǒng)不適用于將諸如雜志文章或書之類的大量的未知文本轉換為語音。共振峰系統(tǒng)在由機器讀取文本或以別的方式由計算機化系統(tǒng)處理文本時“實時地(on the fly)”合成小片的類似于元音或濁音的聲音，比較適用于這樣的較大塊的文本。然而，直到目前，這樣的共振峰語音系統(tǒng)的輸出仍是非常機械、單調(diào)或過分像機器讀的。
授予Sensimetrics Corporation(Cambridge，MA)的Stevens的美國專利5,748,838公開了一種語音合成方法，該方法使用聲門模型來確定十個或更少的高級別參數(shù)并使用映射關系將它們轉換成三十九個低級別的參數(shù)。這些參數(shù)輸入到語音合成器，使得合成語音比采用要求輸入50到60個參數(shù)來代表任何特定語音的現(xiàn)有技術的系統(tǒng)更簡單些。盡管Stevens專利的公開可能對于其計劃的用途是有用的，但是，Stevens專利所使用的元音解剖學的有些機械的模型，不會產(chǎn)生具有有吸引力的人性化質量的語音輸出。Stevens專利也沒有提供或建議一種用于添加所希望的韻律或控制和修改以合成方式或以人工方式生成的語音的韻律的裝置。
如Addison等人共同擁有的美國專利No.6,847,931，共同待審的美國專利申請No.10/334,658(“Addison′658”)和國際專利申請公開WO/2003/065349所描述的，可以用語音訓練記號來對要合成的文本進行標記作為發(fā)音指南，以確?？衫斫庑浴ddison′658在語音合成時可以進行可表達的解析，并通過經(jīng)過訓練的說話者來生成語音元素數(shù)據(jù)庫，該數(shù)據(jù)庫可以被用來實現(xiàn)從文本進行可表達的合成。無論是Lessac系統(tǒng)還是其他已知的系統(tǒng)都沒有提供以允許對輸出語音的韻律進行控制的方式來向語音合成器傳遞所希望的韻律的簡單方法。
Margaret Prendergast McLean E.P.Dutton & Co.，Inc.(1952)(下文簡稱為“McLean”)所著的“Good American Speech”描述了對文本進行標記的記號系統(tǒng)，以便就所希望的語調(diào)模式、或連續(xù)語音中的音高的變化指示閱讀者，從而避免諸如單調(diào)或奇特的或方言的語調(diào)之類的瑕疵。此著作先于使語音計算機化的現(xiàn)代的嘗試，現(xiàn)有技術中沒有建議McLean語調(diào)模式對于解決合成語音時所遇到的現(xiàn)代的問題的任何有用性。此外，McLean的語調(diào)模式也缺乏參照音高的任何裝置，使得不同說話者難以以一致的方式利用語調(diào)模式。
前面的對背景技術的描述可以包括在本發(fā)明之前的相關技術不知道的但由本發(fā)明提供的見識、發(fā)現(xiàn)、理解或發(fā)明。這里可能已經(jīng)具體指出了發(fā)明的某些這樣的貢獻，而它們的上下文中，本發(fā)明的其他這樣的貢獻將變得顯而易見。不能僅僅因為一個文獻在這里可能已經(jīng)被引用，就認為其技術領域可能相當不同于本發(fā)明的技術領域的該文獻的領域類似于本發(fā)明的領域。

發(fā)明內(nèi)容
相應地，需要一種簡單的方法，用于以允許對輸出語音的韻律進行控制的方式向語音合成器傳遞所希望的韻律。
為實現(xiàn)此目的或其他目的，本發(fā)明提供了一種在聲學上對文本進行編碼，以便用于從文本合成語音的方法，該方法包括以一個或更多個圖形符號標記要說出的文本，以向說話者指出要賦予說出的文本的所希望的韻律。本發(fā)明還提供了用于語音合成的方法和系統(tǒng)，該語音合成包括韻律代碼，或記號，對于用可表達的含義來標記文本，以規(guī)定適當?shù)捻嵚?。標記可以包括字?音素對，其每一對都包括指出可與書面文本一起使用的字形的可見的韻律，和在數(shù)字域中起作用的對應的數(shù)字音素。
所要賦予的韻律可以包括從包括速度、語調(diào)模式、節(jié)奏、音感、振幅、重音和氣息音的停頓、以及單詞和短語短語的正式和非正式的發(fā)音的組中選擇的一個或更多個韻律元素。
該方法可以包括以圖形韻律符號來標記可見的文本或用圖形符號的電子形式來以電子方式標記電子文本，以電子方式標記的文本可以作為人類可讀的用圖形方式標記的文本來顯示或打印。
在另一個方面，本發(fā)明提供了通過輸入到語音合成器的聲音編碼變量來控制的語音合成器，聲音編碼變量對應于被用于生成具有所希望的韻律發(fā)音的記錄的人類語音的韻律規(guī)范，以提供實現(xiàn)了所希望的韻律發(fā)音的合成的語音輸出。
根據(jù)本發(fā)明的一個實施例，下文描述了用于語音學、結構的新穎的記號系統(tǒng)以及可播放的和非可播放的輔音的指定，以及所謂的四個“Lessac”中性字母，它們的使用產(chǎn)生要合成的新穎的用圖形方式標記的文本。
此外，本發(fā)明提供了新穎的過程和系統(tǒng)，用于文本到語音轉換(在此有時稱為“TTS”)或聲音識別應用中，該過程包括下列步驟中一個或多個或其所有生成韻律語音規(guī)則和它們在語音合成中的應用；韻律語音規(guī)則的聲音演示；
韻律語音元素的聲音數(shù)據(jù)庫；TTS的示范性軟件；以及TTS收聽者測試。

下面將通過示例，參考附圖詳細描述本發(fā)明的某些實施例、實施和使用本發(fā)明的實施例、以及實施本發(fā)明的最佳方式，在附圖中，類似的附圖標記在幾個視圖中表示類似的部件，其中圖1是用結構性NRG元音的Lessac發(fā)音記號標記的許多單詞和短語的視圖；圖2顯示了根據(jù)本發(fā)明一個實施例的用于指出文本中的音高變化的韻律圖形符號的示例，例如，與文本相關的韻律語調(diào)模式內(nèi)的連續(xù)的音調(diào)音高變化模式；圖3顯示了根據(jù)本發(fā)明一個實施例的用于指出輔音混合中的輔音的所希望發(fā)音的韻律圖形符號的示例；圖4顯示了根據(jù)本發(fā)明一個實施例的用于指出包括跟隨著“敲擊”輔音混合的“雙簧管聲”的輔音的所希望發(fā)音的韻律圖形符號的示例；圖5顯示了用于指出包括“鐃鈸聲”的敲擊輔音組合的所希望發(fā)音的韻律圖形符號的示例；圖6顯示了用于指出包括“木制管樂器敲擊聲”的輔音組合的所希望發(fā)音的韻律圖形符號的示例；圖7顯示了用于指出在輔音之間包括中性元音的輔音組合的所希望發(fā)音的韻律圖形符號的示例；圖8顯示了用于指出包括Y和W連接詞的輔音組合的所希望發(fā)音的韻律圖形符號的示例；圖9顯示了用于基于按順序鏈接單詞(在此情況下為短語)的發(fā)音考慮而指出所希望發(fā)音的韻律圖形符號的示例；圖10說明了根據(jù)本發(fā)明的具有用于規(guī)定的韻律(在此情況下為“報告”韻律)的單詞重讀和語調(diào)模式的韻律圖形表示法的兩個示例的使用；圖11以報告樣式說明了使用圖2-10所說明的Lessac發(fā)音記號和韻律圖形記號兩者的標記的一個示例；以及圖12說明了使用圖2-10所說明的Lessac發(fā)音記號和韻律圖形記號兩者的標記的另一個示例，此示例是人類感興趣的樣式。
具體實施例方式
在本發(fā)明之前，沒有用于規(guī)定聲音的已知的合成器“代碼”，也沒有代碼應該創(chuàng)建的聲音記號的任何測量的集合。相應地，本發(fā)明使得熟練的語音實踐者好比是“合成器”，并使其讀出用韻律方式標記的文本的樣本，以便獲得所希望發(fā)音的聲音值。根據(jù)本發(fā)明，這些聲音值用于準備新穎的韻律聲音數(shù)據(jù)庫，該數(shù)據(jù)庫可被用于語音合成。將這里所描述的新穎的圖形標記符號與這里所描述的受控制的數(shù)據(jù)庫記錄方法、有用的韻律元素(如語調(diào)模式；節(jié)奏；重音和氣息音的停頓、以及單詞和短語的正式和非正式的發(fā)音)一起使用，優(yōu)選情況下，這可以集成到合成或人工語音中。
為改進許多已知的合成語音輸出的典型的乏味的機械式的質量，本發(fā)明提供了這樣的系統(tǒng)、方法和新穎的文本編碼技術，它們提供了受控的或標準化的人類語音輸入，這些語音輸入用于生成聲音元素的數(shù)據(jù)庫，這些聲音元素可以使用適用于應用適當?shù)穆晫W元素的規(guī)則集、通過機器結合到語音中，以提供人性化的語音輸出。
理想情況下，人類語音輸入和規(guī)則集體現(xiàn)了一個或更多個專業(yè)語音實踐者的教導。在本發(fā)明的一個實施例中，使用了語音訓練教練的識別的教導。
作為示例，這里將引用Arthur Lessae的關于戲劇藝術和演說的原理，應理解，也可以使用其他語音培訓教練的教導或其他語音培訓的體系，具體來說，英語之外的其他語言在很多情況下使用相當不同的語音訓練教導。理想情況下，這樣的其他語音訓練技術可以具有規(guī)則集，該規(guī)則集以有吸引力韻律字符(例如音樂字符)提供了一致的、可輕松地理解的語音輸出，如將從這里的教導可以顯而易見地看出的那樣。語音實踐者可以被理解為是在相關的語音培訓或訓練學科方面經(jīng)過很好的訓練的個人，他們通常在說話能力方面專業(yè)地使用他們的語音技巧和知識，例如，作為語音教師、公共講演者或演員。
以Lessac方法訓練過的語音實踐者認為語音為像管弦樂般的聲音，即，語音是音樂。文本標識了語音的語音參數(shù)作為三個元素的相互作用，如Arthur的名為“The Use And Training Of The HumanVoice”，Mayfield Publishing Company，3rd ed.(1997)的書(第二部分，第61頁開始)所描述的(下文簡稱為“Arthur Lessac的書”)。由Lessac標識的三個語音參數(shù)是輔音、音調(diào)和結構性能量。輔音可以比作“orchestra”，音調(diào)比作聲音的音樂本身，而結構性能量比作結構性元素對輔音和元音的相互作用。Arthur Lessac將三個語音的語音參數(shù)稱為元音eNeRGy。Lessac指出，它們都是從要讀出的文本派生而來的，這意味著，文本要傳遞諸如被視為整體的文本的內(nèi)容、單詞的含義和聲音、它們的語法上的關系、所使用的語法和消息這些要素。
盡管人類語音是模擬式的聲音，說話者可以“作為連續(xù)的樂器來播放聲音”，有用的是，在連續(xù)體中取幾個離散點，以講述無窮可變的可表達的語音的概念，關于這一點，在Arthur Lessac的書的149，以及170到173頁進行了具體的描述，該文說明了連續(xù)結構性的和音調(diào)范圍中的“點”值。
Lessac系統(tǒng)提供或多或少的字母數(shù)字記號以進行編碼，用以達到所希望的發(fā)音，以使得單個語音元素，特別是音素、雙音素和所謂的“M-ary音素”是可理解的。這些語音元素主要是單個元音和輔音、雙元音和輔音混合。
現(xiàn)在請參看圖1，被標記的文本包括被標記用于根據(jù)Lessac記號進行發(fā)音的單詞的文本行10，字母數(shù)字符號的記號行12位于文本行10的正上方。熟悉如Arthur Lessac的書中所描述的Lessac系統(tǒng)的個人將能夠理解行12中的記號所表示的發(fā)音指令，并將能夠應用它們，以便能夠以一致的方式逐一讀出行10。下面的表A-E顯示了在實施本發(fā)明時可以使用的這樣的記號的樣本。如果文本被很好地標記并且說話者正確地實現(xiàn)標記指令，則結果能產(chǎn)生清楚而可理解的語音。然而，盡管清楚而可理解，根據(jù)說話者或語音源的不同，語音可能有點單調(diào)或像機器讀的。

在2002年12月31日申請的標題為“TEXT TO SPEECH”的Addison等人的美國專利申請No.10/334,658中描述了用于表示可理解的發(fā)音的Lessac圖形記號的有用性，但沒有給出示例，并且沒有描述如圖1所示的標記的特定實施例。
現(xiàn)在請參看圖2，根據(jù)本發(fā)明，所顯示的圖形符號用于指出讀出字母、雙元音、音節(jié)或其他語音元素時所要求的音高控制，以獲取所說出的段落的希望韻律。
本發(fā)明中使用的韻律代碼是發(fā)音代碼，它們涉及文本的序列、一個單詞內(nèi)的字母的序列；一個句子內(nèi)的單詞的序列；一個句子的固有序列；一個段落中的句子的連續(xù)的位置；以及作為段落的序列的一部分的段落的位置。這些考慮中的任何一個或更多個可以確定什么是、或什么不是適當?shù)捻嵚桑蛘咧刈x、音高或時間中的什么韻律元素適合于是應用于文本。有時，適當?shù)捻嵚墒遣幻黠@的，直到某一個序列完成之前。本發(fā)明在考慮到這些因素的情況下能使適當?shù)捻嵚蓱糜谖谋?。本發(fā)明中使用的代碼由發(fā)音發(fā)聲原理和上下文確定，在該上下文中，通過規(guī)定適當?shù)捻嵚?，對代碼進行修改以用于可表達的含義。
顯示了上滑符號(upglide)20、下滑符號(downglide)22、兩個抑揚符號24A和24B以及水平維持26。每一個圖形記號20-26都包括左側點，如點28，其指出開始音高，以及尾巴，如延伸到點28的右邊的向上的尾巴30。
尾巴30的輪廓指出音高如何隨著發(fā)出語音元素而變化。上滑符號20的向上的尾巴30表示上升的音高。下滑符號22具有下轉的尾巴32，以表示下降的音高，水平維持26保持某一個水平，以表示持續(xù)的不變的音高。抑揚符號24A表示上升到峰值然后下降的音高，而抑揚符號24B表示相反的情況。韻律圖形符號20-26可以放置在要說出的文本附近的任何方便的位置，例如在文本正上方的行中被協(xié)調(diào)，或有選擇地被放置于文本下面。盡管可以用文本或連字號作為這里所描述的圖形發(fā)音符號的附件把文本斷開，但是，優(yōu)選情況下，應保持文本的正常打字的、鍵入的或書寫的外觀。
在下文將描述的隨后的圖形(圖5往前)中，使用了貫穿字母的正斜杠(forward slash)36來表示字母只部分地發(fā)聲，“準備”，因為下面的輔音具有緊密相關或相同的聲音。此外，具有掛在這里被鏈接的字母和參考40下面和之間的吊床的形狀的淺的U形鏈接符號，被用來表示通過其他字母彼此分離的并且通常位于相鄰的單詞中的字母，應該以連接的發(fā)音的連續(xù)的方式讀出。下面將結合圖9比較詳細地描述對直接鏈接進行標記的鏈接符號40的用法。
一般而言，根據(jù)本發(fā)明的一個實施例，當對輔音進行標記時，元音之前的輔音被說出但不是“可播放的”，因為它們只在語音直接流進元音時短暫地形成。在此上下文中，“可播放的”是指，說話者在讀可播放的輔音時可以創(chuàng)建所希望的韻律效果，在讀可播放的輔音時使用拖長發(fā)音、停頓或音高變化。
在此實施例中，沒有用圖形方式標記不發(fā)音的輔音，而是留給計算機軟件。在用于喘息或解釋的停頓之前的最后的輔音被標記為“可播放的”。R長號不是可播放的，其在任何其他輔音之前或當其在最后的時候則在用于喘息或解釋的停頓之前，沒有被標記。也可以對計算機進行編程，使其理解此特征。
現(xiàn)在請參看圖3，韻律圖形符號的所顯示的實施例包括輔音的下列標記單下劃線用以分別標記為可播放的敲擊聲，例如，定音鼓鼓聲D、B和G以及響弦鼓，低音鼓和手鼓鼓聲T、P和K；雙下劃線用以標記為可播放的弦樂器聲N、M、V和Z；木管樂器聲L、NG、TH和ZH；和(無聲)聲響效果F、S、SH和th。
未標記的輔音不可播放，也就是說，它們不是在讀出它們時利用拖長發(fā)音、停頓或音高變化來創(chuàng)建具有所希望的韻律韻律效果的注意焦點。
可以用于輔音混合的根據(jù)本發(fā)明的韻律圖形記號的附加規(guī)則包括，不標記以單詞開始的輔音混合的第一個字母。幾個單詞內(nèi)的輔音混合可以被標記為如下bl，brnobly，probably；abrasion，upbraid；/cl，cr，chr unclean，include；increase；unchristian；drsundry，hundredfl，fr，phr inflame，infraction，rephrasegl，grdeglaze，English；degrade，aggressive；pl，prapply，replace；comprise，surpise；quinquest，unquiet，sequel；trrestroom，distress，entrance；thr bathroom，enthrall；在圖2-10中所顯示的在實施本發(fā)明的過程有用的圖形記號的示范性實施例中，上文被描述為弦樂器聲(N、M、V和Z)、木管樂器聲(L、NG、TH和ZH)和(無聲的)聲響效果(F、S、th和ZH)的字母或字母組合以及雙元音，當它們在所有其他輔音之前出現(xiàn)時通過雙下劃線被標記為“可播放的”，除非后面的輔音是相同的輔音或同詞源。當相同的輔音或同詞源跟在后面時，第一個輔音用貫穿輔音的正斜杠標記為“準備”。
理想情況下，當G不代表跟隨著鼓聲的雙簧管聲時，則字母NG可以加兩道下劃線。當以字母NG結尾的單詞的一部分與整個單詞具有共同的含義時，認為在雙簧管聲字母之后沒有鼓聲，如下面的示例所示long，singsong，longhand圖3顯示了在各種單詞中出現(xiàn)的輔音的s-混合中的哪些輔音是可播放的，也就是說，可以被給予擴展的或強調(diào)的發(fā)音，或音樂聲，以增強韻律。例如，在“whiskey”和“husky”中，S將被播放，而K不被播放。K不是不發(fā)音的它只是很快地發(fā)音，而不在其上停頓或拖長其發(fā)音。在“ensnare”中，第一個N和S被播放，而第二個N和R不播放。distinct的N下面的雙下劃線并帶有“尾巴”34，接下來是C和T的單下劃線，表示可播放的N可以作為雙簧管聲播放，但接下來是必須播放的鼓聲輔音，在此情況下為雙鼓聲輔音對?！癲ismantle”的貫穿T標記的、上端帶有“球”38的正斜杠36表示TL不能作為木制管樂器“木制管樂器敲擊聲”播放，而作為輔音T，接下來是可播放的輔音L，如用于L的雙下劃線所指出的。
如圖4所示，當NG代表雙簧管聲加鼓聲或其他敲擊聲時，N下面帶有雙下劃線，具有尾巴42，表示N是可作為雙簧管聲播放的，但G只有單下劃線，顯示需要作為G定音鼓鼓聲敲擊聲播放，以便保證正確地讀出單詞。也是在圖4中，用雙下劃線標記單詞longevity，N有尾巴，接下來是沒有下劃線的G，表示N可作為雙簧管聲播放，但G必須作為“其他敲擊”鐃鈸聲DG發(fā)音，以便單詞正確地讀出。
在與鼓聲不相關的輔音之前，可以用單下劃線將鼓聲標記為是可播放的，從口腔解剖學的方面來看，鼓聲是在舌頭的不同接觸位置產(chǎn)生并感覺到的輔音。在相同的、同詞源的或半相關的輔音之前，作為像是在幾乎相同的位置產(chǎn)生的輔音，用貫穿輔音的正斜杠將鼓聲有用地標記為“準備”。
現(xiàn)在請參看圖5，在所有其他輔音之前，在鐃鈸聲的每一個字母下面，用單下劃線將鐃鈸聲標記為“可播放的”，除了相同的和同源的以外。如此，例如，在“heads back”而不是在“heads south”中的“heads”中的DS是可播放的。在圖5中，如上文所描述的，直接鏈接用鏈接符號40進行標記。如此，“heads back”中的DS顯示為由鏈接符號40鏈接到B，“beats fast”中的TS顯示為由鏈接符號40鏈接到F。
現(xiàn)在請參看圖6，在所有其他輔音之前，木制管樂器敲擊聲DL和TL用雙下劃線被標記為“可播放的”，跟隨的初始L是例外，因為木制管樂器敲擊聲中的L。如此，例如在“middle school”而不是在“middle life”中，“middle”中的DL是可播放的。如上文所描述的，標記了吊床形符號40，以表示直接鏈接。在正斜杠36的頂部標記的“o”表示“準備”標記的特別版本，只用于木制管樂器敲擊聲，表示輔音將被準備并被鏈接到L。在跟隨的L的情況下，L直接鏈接到跟隨的L，因此，木制管樂器敲擊聲的末尾不得作為持續(xù)的輔音L來播放。
請參看圖7，請注意，理想情況下，輔音組合GL、KL、BL和PL不被當做代表木制管樂器敲擊聲來對待，因為在它們之間說出中性的(非書寫的)元音。如此，如圖所示，L是可播放的，但前面的輔音是不可播放的。
理想情況下，當W、H和Y出現(xiàn)在對于其他輔音樂器是可播放的位置時，W、H和Y不被標記為是可播放的，因為它們是元音或雙元音的一部分，如下面的示例所顯示的
new，newly，bow；bowline；cow，cowlick.
W和H一起在共同的組合WH中的有用的記號，根據(jù)本發(fā)明，是在WH上方標記字母“hw”，以表示H應該首先發(fā)聲，接下來是W，并且兩者都不應該被播放。
請參看圖8，當在單詞的內(nèi)部和單詞之間[Y]或[W]在另一個元音之前出現(xiàn)時，創(chuàng)建Y和W連接詞50和52，以表示應該從一個單詞到下一個單詞或從一個音節(jié)到下一個音節(jié)保持語音連續(xù)性。在本發(fā)明的此實施例中，用于Y和W連接詞50和52的示范性符號各自都包括分別從Y或W下面到跟隨的元音的像吊床的淺的U形，連同分別標記在U的中間、靠近U或貫穿U的小的Y或W字母。U表示要保持連續(xù)性，字母Y或W表示要使用的聲音，不管字母是否存在于書寫的文本輸入中。例如，在“create”的E和A之間發(fā)Y的聲音，在“cruel”的U和E之間發(fā)W的聲音。
現(xiàn)在請參看圖9，如Addison等人的共同待審專利申請No.10/334,658描述的和在Arthur Lessac的書中更詳細地描述的，Lessac系統(tǒng)標識了一個單詞或短語中的輔音和一個或更多個附加的字母或音素在它們被說出時被鏈接起來的多種方式。圖9顯示了根據(jù)本發(fā)明的如何用圖形方式表示這樣的被鏈接的單詞的所希望發(fā)音的某些示例。
圖9中顯示了在Lessac語音系統(tǒng)中所使用的說出的單詞鏈接的三個示例，即，所謂的“直接鏈接”、“播放-和-鏈接”和“準備-和-鏈接”。
在直接鏈接中，一個單詞的最后一個輔音被直接鏈接到下一個單詞的開始處的元音，例如，“far above”被讀作一個單詞“farabove”。
在“播放-和-鏈接”中，在口中的不同位置有兩個相鄰的輔音的情況下，如“k”，接下來是“t”，在移到第二個輔音(在此情況下，“t”)之前，第一個輔音(在此情況下，“k”)被完全(意指是完成的)播放(讀出或發(fā)出聲)。
當在口中同一個位置有兩個相鄰的輔音或兩個輔音彼此接近時，如在“grab boxes”或“keep back”的情況下，“b”后面是另一個“b”或“p”，使用“準備-和-鏈接”。在此情況下，在移到第二個鼓聲之前，準備第一個輔音或“鼓聲”，意指是未完成的，這通過輕微的暫停來執(zhí)行。
用于表示直接鏈接的示范性韻律圖形記號，如圖9的上一行所示，包括掛在被鏈接的字母下面和之間的鏈接符號40，通常將一個單詞的末尾處或末尾附近的一個字母或多個字母與下一個單詞的開始處或開始附近的字母鏈接，如從所顯示的示例中可以清楚地看到的。直接鏈接表示說出的動量(momentum)應該從一個鏈接的字母傳到下一個字母，單詞之間沒有中斷、停頓或暫停。
在圖9的中間行中所顯示的“播放-和-鏈接”示例中，播放第一個輔音，第二個輔音不播放。如此，鏈接符號40與第一個輔音的單或雙下劃線結合。
圖9的最底部的行中所顯示的“準備-和-鏈接”示例使用了貫穿將要準備的第一個輔音的正斜杠，與到第二個輔音的鏈接符號40相結合，以顯示鏈接。此外，如上文所描述的，可播放的輔音用下劃線表示。
現(xiàn)在請參看圖10，在所顯示的兩個韻律圖形符號中，示例1是實現(xiàn)起來相對來說比較簡單和經(jīng)濟的，而示例2則比較復雜，用于促進產(chǎn)生高質量合成語音輸出，這種高質量合成語音輸出適用于(但不僅限于)諸如會說話的書和雜志、戲劇及其他娛樂之類的應用中。此外，示例2的比較詳細的記號減少了說話者之間的甚至在經(jīng)過訓練的說話者的情況下也可能發(fā)生的變化，從而有助于輸出的一致性。
示例1的記號可以(但不僅限于)適用于工業(yè)應用中，如與設備、車輛、生產(chǎn)機器、低端游戲和娛樂設備等等進行的發(fā)聲通信。當然，如果需要的話，任何一個記號都可以用于其他用途。
在圖10中，示例1和2應用于相同的文本，在交替的行上，進行并排的比較。如通過相互比較圖10的頭兩行可看到的，在“heads”與另一個鏈接單詞的幾個組合中，被貫穿DS組合的D的正斜杠36標記的附加的準備提供了更細微、更有吸引力的聲音。在每一種情況下，保持了從“heads”到下面一個單詞的連續(xù)性，但在示例2中，由于被準備了，根據(jù)附加的標記，D聽起來更清楚。在遵循示例1的發(fā)音中，D可能會丟失。
現(xiàn)在請參看圖11和12，可以理解，本發(fā)明提供并使用了圖示符號集，該圖示符號集可以被用于指出或提供吸引人的、韻律語音輸出的模板，其具有一個或另一種相當不同的風格。圖11顯示了以被稱為“報告”的“韻律”風格呈現(xiàn)Gettysburg Address的一部分的標記，而如圖12所示的風格是更富有情緒的人類興趣風格。
Address的文本在諸如文本行10之類的文本行中呈現(xiàn)，用Lessac結構性的和音調(diào)能量元音發(fā)音記號以及用輔音能量發(fā)音記號在文本行10上方進行標記，包括在諸如記號行12之類的記號行中的敲擊和持續(xù)的音調(diào)輔音的標記、木制管樂器敲擊聲的標記，以及鏈接符號的標記，如上文所描述的。在該文本之下文本也被用諸如上文所描述的韻律圖形符號記號，以便不與發(fā)音表示法發(fā)生干擾，包括單個字母下劃線、上滑符號、下滑符號、吊床形符號等等。此外，所謂的“Y蜂音行(Y-buzz)”60被添加到記號行12的上方，在Y蜂音行60的上方，標記了進一步的韻律符號。如Arthur Lessac的書所描述的，例如，在第122頁，Y蜂音是講演者的或歌手的語音中的骨頭-傳導音調(diào)的振動基礎。
在Y蜂音行60上方，使用處于Y蜂音行60上方的某一水平的小點62和大點64，在可被稱為“韻律音高圖表”中標記出所希望的語調(diào)模式，該語調(diào)模式表示相對于講演者的Y蜂音行音高的所希望音高。點的大小可以用于表示所希望的重讀，或指定的相對音高的相對振幅，小點62表示沒有特別的重讀，大點64表示希望有增加的重讀?？蛇x地，點大小還可以以成比例的方式表示重讀的所希望程度。盡管可以以低于Y蜂音行60的頻率發(fā)聲，但是，聲音的音調(diào)和發(fā)音控制可能變得不足以使聲音作為可控制的樂器來執(zhí)行。
在圖11和12中以圓圈標記出了字母B，指出了當讀出根據(jù)標記的文本時由語音實踐者所犯的錯誤。錯誤是由聽發(fā)音的錄音并記下發(fā)音偏離了應該遵循的標記的地方的其他語音實踐者確定的。例如，在圖12中，實踐者B作出了不同于標記中所要求的兩個發(fā)音。第一個是沒有讀出單詞“engaged”(文本行4，單詞4)的末尾處的鼓聲輔音。第二個是未能執(zhí)行單詞“dedicated”(文本行5，單詞5)末尾處的E的上滑以及輔音D的鼓聲。
通過仔細地將韻律音高圖表標記與圖11的報告標記進行比較，由如圖12所示的人類興趣標記傳達的添加的情感和能量將變得顯而易見。例如，圖12中的許多重讀點是較大的點64，要求更強的重讀或重音。此外，行1中的“ago”上方的上滑符號20被提高到Y蜂音行60的上方，以指出所希望的較高的音高。在最下面的行中，“conceived”的V被賦予了特別的重讀點64，并且沒有使用抑揚符號24B。通過查看圖形，可以看出其他差異。
從圖2-10，特別是從圖11和12可以看出，本發(fā)明提供了綜合的文本標記系統(tǒng)，該系統(tǒng)可以利用普通文本體現(xiàn)復雜的發(fā)音和韻律符號，作為不分散或中斷普通文本的覆蓋，以產(chǎn)生新穎的指令或控制文檔，作為人聲音或機器發(fā)出的語音，提供了文本的準確的、能理解的、有吸引力的甚至有旋律的呈現(xiàn)的藍圖。根據(jù)這里的公開，用于實現(xiàn)本發(fā)明的目的的語音的、用來標記文本的其他適當?shù)膱D形符號對于那些精通本技術的人員來說是顯而易見的，并預期可以適用于實施本發(fā)明。例如，可以使用各種幾何符號或幾何符號或動畫字形的方案。然而，可以相信，諸如這里所描述的簡單符號將被直觀地理解，易于在對腳本或其他文本進行標記時應用，重要的是，在經(jīng)過訓練的說話者閱讀被標記的文本時可以被他們輕松地理解。
如圖2-4及其他圖形所示的以及這里所描述的韻律圖形符號可以以各種方式使用，以便在合成的語音輸出中，特別是在共振峰語音輸出中產(chǎn)生人性化的聲音。例如，這些可以被一個或多個，優(yōu)選情況下是多個經(jīng)過訓練的人使用，以根據(jù)這里所闡述的標記語音代碼，準確地讀出文本，以產(chǎn)生讀出的語音的數(shù)據(jù)庫。所述數(shù)據(jù)庫將包含讀出的語音，這種語音被證明準確地遵循了用這里所產(chǎn)生的語音代碼而標記出的文本?；蛘?，或此外，本發(fā)明的韻律圖形符號可以以數(shù)字方式呈現(xiàn)，并且在合成器軟件中使用，以便對將要由機器閱讀的文本進行電子標記，以促進或引導將韻律元素的數(shù)字域引入到輸出語音中。對應于字母、單詞、短語、句子、段落和較長的文本的圖形記號的記錄的語音的數(shù)據(jù)庫，可以被數(shù)字化和分析，以到達算法及其他韻律學，用于規(guī)定對應于特定文本的特定語音數(shù)據(jù)與其相關的圖形記號的唯一關系。然后，此數(shù)據(jù)庫可以用于向合成器提供輸入?yún)?shù)，以重新創(chuàng)建針對要合成的特定文本模擬人類語音的聲音，作為具有指定的韻律的語音。
為簡單起見，每一個文本單元以及其關聯(lián)的語音代碼圖形表示法都可以視為“字形”。類似地，對應于“字形”的每一個聲學單位都被標識為“音素”。幾百或幾千個(其中，“幾”表示“至少兩個”)或更多的本發(fā)明的音高、振幅和韻律圖形記號的發(fā)音關聯(lián)的字形-音素對的擴展集合，可以以數(shù)字方式呈現(xiàn)并且在合成器軟件中使用，以便對將要由機器閱讀的文本進行電子標記，以便促進或引導將韻律元素的數(shù)字域引入到輸出語音中。
那些精通本技術的人將理解，如圖2-4所示的特定韻律圖形符號僅僅是示范性的，根據(jù)這里的教導，在實施本發(fā)明的過程中有用的韻律圖形符號可以具有許多其他形式。此外，所顯示的符號的特定示例也適用于Lessac語音系統(tǒng)。如果需要，根據(jù)本發(fā)明，可以使用其他韻律圖形符號來實現(xiàn)其他語音訓練或培訓方法，或用于實現(xiàn)Lessac系統(tǒng)，以促進機器語音的人性化，正如那些精通本技術的人根據(jù)這里的教導所理解的那樣。
根據(jù)本發(fā)明的一個實施例，在準備諸如圖11和12中所顯示的那些韻律標記時，可以遵循如下面的段落中所描述的原則。
準備被標記的腳本。根據(jù)本發(fā)明，在準備要說出的被標記的腳本時，如圖11-12中所顯示的那些，良好的頁面布局對于說話者是有幫助的，有助于他們不僅理解文本，而且還有助于他們同時理解添加的符號以便引導說話者產(chǎn)生一致的吸引人的語音輸出，該語音輸出可以在創(chuàng)建數(shù)據(jù)庫時有用，另外還在計算機化語音合成中有用。
理想情況下，文本應該在每一行的上方有充足的間隔，例如3厘米或更多，以容納將要添加的發(fā)音記號和韻律圖形符號。相對來說比較大的字體對于以有助于準確地閱讀和解釋標記，同時大聲地朗讀的方式來容納各種記號和符號是有用的。諸如14磅Lucida BrightSemi粗體之類的字體是合適的字體的示例。
在本發(fā)明的一個實施例中，在標記腳本時，每一行腳本，包括頁面上的最后一行，以垂直標記結束，以表示抑揚頓挫或氣息音。數(shù)字被寫出。如果首字母縮寫詞將被作為單詞而不是作為字母說出，則首字母縮寫詞被全部寫出。有用地，指定用于保證一致發(fā)音的參考詞典，例如，Merriam Webster′s Collegiate Dictionary，Tenth Edition。
在參考詞典提供了發(fā)音的選擇的情況下，使用給出的第一個發(fā)音，除非錄音是正式的或“嚴肅的”語音，在這種情況下，如果列出了“約定的”發(fā)音，則使用該“約定的”發(fā)音。
語調(diào)模式是在連續(xù)的語音中的分步驟的從音高到音高的一般移動。音調(diào)變化是元音或輔音上的滑動的音高變化，要么叫做上滑、水平維持、下滑，或者叫做抑揚滑動。
有用地，在進行腳本準備的實施例中，說話者大聲地探索腳本，以體驗傳達每一個句子的含義的語調(diào)和音調(diào)變化。
在腳本上標記出了雙垂直線，以指出氣息音停頓，標記出單垂直線，以指出沒有停頓的并且將影響這些部分的最后的輔音的抑揚頓挫。
在本發(fā)明的一個有用實施例中，在這些準備之后，首先標記輔音，然后標記元音，以便實現(xiàn)上文所描述的發(fā)音和韻律。
下一個步驟是在元音的緊靠上方(但不遮蔽)繪制Y蜂音音高線60，以提供音高標記的參考。被標志的音高范圍將是從低Y蜂音范圍(低于Y蜂音行60)到中間呼叫(mid-call)范圍，其中，非變形元音可以在中間呼叫中發(fā)聲，例如，#3，R，以及+Y，以及任選的#4和N。
如果需要，可以在Y蜂音行60上方繪制附加的音高線(未顯示)，例如，中-低寄存器行(mid-low register line)和中-中(mid-mid)寄存器行?？梢栽谝舾呔€上和它們之間放置語調(diào)點62、64或其他適當?shù)臉擞洝Ｈ绻枰?，可以使用其他方法來提供音高范圍，例如，如Daniel Jones的書Outline of English Phonetics所描述的，其中，使用了三線譜來定義音高范圍。
于是，語音系統(tǒng)實踐者(為了實踐這里所描述的實施例，應該是Lessac實踐者)，根據(jù)相應的語音系統(tǒng)和所希望的韻律來記錄他們感覺到是所希望的語調(diào)和音調(diào)變化，其中使用Y蜂音行60作為他們自己的音高范圍的參考。如上面所引用的，對于每一音節(jié)，可以標記出點，對于無重讀的音節(jié)，使用小的不同的點，如62，對于重讀的音節(jié)，用引人注目的較大的點64。
對于“人類興趣”錄音，例如，如圖12所顯示的，可以使用較大的點(它們周圍用圓圈圍住)或其他適當?shù)膱D形指示，標記出語音特點的比較豐富的用途，如所謂的“結構性的NRG”和Lessac系統(tǒng)中的“濃縮音調(diào)”，以指出對包含Lessac基本呼叫(basic call)單詞的單詞所希望的呼叫焦點(call focus)，沒有元音的失真。此段落中所使用的術語涉及Lessac語音或話音系統(tǒng)，可以通過閱讀ArthurLessac的書來進行理解。
例如，如該書所描述的，結構性的NRG是動覺元音能量(根據(jù)Lessac的“NRG”)狀態(tài)，該狀態(tài)與面部姿勢相關，是指元音聲音箱子的模子、形狀和大小。結構性的NRG被視為與元音音調(diào)的顏色、體溫和美學相關。
在主要的重讀音節(jié)之前可以用雙重音符號(例如，“)標記出有效的單詞，而次要的重讀音節(jié)可以帶單重音符號(例如，‘)。
在此上下文中，有效的單詞是每一個連續(xù)的短語中的單詞，或文本的其他意義組部分，其引入了隨著句子的進行攜帶變元轉發(fā)(argument forward)的新的思想。
理想情況下，根據(jù)本發(fā)明的此方面，可以進行小心的和一致的聲音記錄，以便用于文本到語音轉換合成數(shù)據(jù)庫，文本的短語和氣息音停頓部分內(nèi)的單詞的每一“意義組”具有識別的有效的單詞。不經(jīng)常地，可能有兩個具有可比較的重要性的有效的單詞。
使用Lessac訓練的元音動態(tài)，可以以各種方式識別有效的單詞，例如，通過將它標記出來以較高的音高說出，或通過大大地延長其元音和輔音，或通過添加濃縮音調(diào)，呼叫共振，或通過這些動態(tài)的組合。
在本發(fā)明的一個示范性實施例中，變元的引入以說明性的句子開始，其中，標記出或不標記出所有的單詞，連接單詞除外，以便大約具有相同的重讀或重音量。第一個重讀的單詞可以在音高方面提高，其他的可以逐步下降到Y蜂音范圍，最后一個重讀音節(jié)上有下滑符號。
作為示例，在根據(jù)本發(fā)明的語音的被標記的腳本中，可以在標點符號中使用各種音調(diào)變化，如現(xiàn)在將描述的那樣。句號和分號在最后一個重讀的單詞中呈現(xiàn)下滑符號22。逗號和冒號可以呈現(xiàn)上滑符號20或水平維持26。以疑問詞(例如，誰、什么、在哪里、何時、如何或為什么)開始的問題在最后一個重讀的單詞上呈現(xiàn)下滑符號22，其他問題，通常是預期以“是”或“否”回答的那些問題，在最后一個重讀的單詞上呈現(xiàn)上滑符號。
其他語音培訓系統(tǒng)。如那些精通本技術的人員所理解的，所聲明的發(fā)明可以在使用了Lessac方法之外的規(guī)則或語音訓練原理或實踐的實施例中實現(xiàn)。一個這樣的示例是哥倫比亞大學戲劇分校的Kristin Linklater的方法。有關Kristin Linklater的技術的信息以及其規(guī)則可以在實施本發(fā)明中使用的其他語音實踐者的信息，如果需要，可以在www.columbia.edu/cu/news/media/00/kLinklater/和在www.kristinlinklater.com中找到。
韻律語音規(guī)則和它們的應用?？稍诒景l(fā)明中使用的韻律語音規(guī)則旨在負責語言以及其各個方言的發(fā)音和共同發(fā)音。這里將引用的示范性程序語言是美國英語，“普通教育”方言?？梢岳斫猓梢允褂闷渌Z言。韻律語音規(guī)則(其中至少有某些可以從Lessac文本中推導出或知道)，應用于要使用這里所描述的新穎的聲音代碼讀出或合成的文本，使得熟悉Lessac系統(tǒng)的說話者可以適當?shù)?、Lessac確定的、受控的發(fā)音方式大聲地閱讀文本。
規(guī)則的示例包括如在一個或多個共同擁有的應用中所描述的，使用隨機停頓，以及通過氣息音停頓修改；包括節(jié)奏、語調(diào)模式、單詞重噸、單詞選擇、以及輔音“混合”的韻律的定義；所有直接從要讀出的文本中導出的規(guī)則。這些韻律語音規(guī)則可以用于其他方言和語言。
在本發(fā)明中使用的聲音標記代碼可以指出如何產(chǎn)生特定語音聲音，以及可以使用什么語音變量來產(chǎn)生那些聲音。要讀出的文本，以及每一個代碼的變量的可選的規(guī)定的值，可以充當已經(jīng)經(jīng)過訓練以在讀出文本時遵循代碼的人類說話者的韻律指令。根據(jù)本發(fā)明，相同的或類似的這樣的代碼變量，或它們的機器等同物，可以用來指示計算機化合成器根據(jù)韻律指令讀出文本。代碼控制聲音的產(chǎn)生，變量指出與所希望的聲音特征有關的可以計量的身份。
可以根據(jù)本發(fā)明的方法進行編碼的語音變量的示例包括將要合成以表達特定音素或其他語音元素的聲音元素的聲頻、振幅、音高和持續(xù)時間?？梢粤炕狡谕档奶囟ㄗ兞康哪承┦纠谢韭曨l；可控制的音高范圍的上下值；表達為每時間單位的頻率變化的音高變化；每時間單位的振幅變化；以及每時間單位的組合的振幅和音高變化。
現(xiàn)在將描述語音規(guī)則、聲音標記代碼和一個或多個變量值之間的一個有用關系的示例。其他可能性對于那些精通本技術的人是顯而易見的。單詞之間的中斷和句子中出現(xiàn)逗號都代表在創(chuàng)建語音聲音時的停頓。盡管如此，每一種停頓都具有不同的字符，根據(jù)本發(fā)明的一個實施例，該字符可以由不同的聲音代碼來表示。停頓對于聽者是有幫助的，促進了單個單詞的識別，并提供了幫助識別短語的間隔。類似地，盡管每一個停頓都涉及時間作為變量，但是，通常構成了停頓的聲音之間的以毫秒為單位的相對無聲的時間值或持續(xù)時間在不同的上下文中可能是不同的。在其中書寫的文本沒有逗號的單詞之間，停頓是說話的速度的一部分，并可以由總體速度和語音的節(jié)律變化來確定，如包圍每一個停頓的清晰發(fā)音的單詞的有節(jié)奏的聲音要求的，并包含在完整的短語內(nèi)。
如此，停頓可以在上下文中由語音的韻律確定，例如，激勵、嚴重、報告、詩歌、勸說或其他韻律，其中，對應的文本中的逗號表示短語的間隔，沒有發(fā)聲的對應的停頓持續(xù)時間，當讀出文本時，可以隨著韻律及其他因素不同以及隨著說話者不同而不同。在天然的人類語音中，此停頓不是單一值，而具有稍大一些或稍小的時間長度的變化，有時吸一口氣，有時更加強調(diào)一些，或充當包含句子以及其短語的總體段落的節(jié)奏的點/對點。如果在該段落的機器產(chǎn)生的語音中，人類說話者的不同的停頓持續(xù)時間被呈現(xiàn)為恒定的毫秒值，則所產(chǎn)生的語音很可能給人的感覺是機械式的，而不是人類的，因為人類傾向于在短語之間產(chǎn)生不同的停頓長度。
示范性腳本標記過程。
為創(chuàng)建圖形符號集，并提供遵循了規(guī)則的準確的發(fā)音的聲音數(shù)據(jù)，以準備示范性韻律聲音庫，由四名經(jīng)過認證的Lessac實踐者組成的團隊來處理在美國英語中最常使用的1,000個單詞和500個短語和句子。
實踐者檢查并細化所使用的韻律語音規(guī)則。理想情況下，他們可以為每一個規(guī)則開發(fā)標記指令和記號。他們還可以開發(fā)韻律的記號。然后，將規(guī)則應用于單詞和句子樣本。
在根據(jù)本發(fā)明的腳本標記過程的一個示范性實施例中，每一個語音實踐者都在腳本中以這里所描述的格式標記單詞和句子，以便根據(jù)韻律語音規(guī)則發(fā)音。有用地，腳本可以包括至少大約1,000個單詞和500短語，廣泛地代表要轉換為語音的文本的語言。如果需要，腳本中的單詞和短語可以限于語言的專業(yè)子集，例如，醫(yī)學、科學或區(qū)域性方言專業(yè)子集。然后，由另一組成員檢查每一個實踐者的標記，以識別應用韻律語音規(guī)則時出現(xiàn)的錯誤。準備沒有錯誤的1,000個單詞和500個短語和句子的調(diào)和的最終標記。
理想情況下，使用調(diào)和的最終標記，每一個實踐者都從被標記的腳本中朗誦單詞和句子的采樣。一個或多個其他實踐者傾聽發(fā)音，并記下在遵循被標記了韻律的文本中的錯誤。在記錄過程或其他演示之前，可以使用此技術來對一個或多個說話者進行排練。
要準備對于準備用于根據(jù)本發(fā)明的語音合成的聲音數(shù)據(jù)庫的有用的錄音，用基線報告韻律標記出要在錄音室錄制過程中讀出的單詞和句子的腳本，例如如圖11所示。每一個實踐者都接收報告腳本的最后的調(diào)和標記的副本，以及具有第二種韻律的標記的相同的句子的子集的標記。
為了進行錄音，實踐者使用具有“干燥空間”錄音環(huán)境的錄音室，理想情況下，是精確地滿足模擬-數(shù)字采樣率和音質的制定標準的錄音室。在錄音過程中，準備了每一個實踐者的發(fā)音的聲音CD或其他模擬式錄音，以及作為WAV或其他數(shù)據(jù)文件而捕獲了錄制的發(fā)音的數(shù)據(jù)CD或DVD。
為確保數(shù)據(jù)的質量，可以將每一個實踐者的聲音CD提供給另一個實踐者，該另一個實踐者傾聽發(fā)音，并在完整的正確的標記的副本上記下未能遵循標記的任何發(fā)音錯誤。理想情況下，當發(fā)現(xiàn)錯誤時，發(fā)音應該從WAV數(shù)據(jù)庫中排除，以便只有正確的發(fā)音、語調(diào)和韻律元素保留在數(shù)據(jù)庫中。
通過遵循這樣的標記、說出和記錄過程，可以提供相對來說無差錯的數(shù)字化的語音元素的數(shù)據(jù)庫，該數(shù)據(jù)庫包括符合輸入發(fā)音和韻律規(guī)則的語言或語言子集的音素、單詞、短語和句子?？梢园l(fā)現(xiàn)某些一致性，由此，一組實踐者準備的語音元素庫與另一組受過類似的訓練的實踐者準備的類似的庫是可相比的。
韻律聲音庫。為使韻律語音規(guī)則有效地應用于計算機化語音，本發(fā)明提供了一個圖形符號集，它唯一地將每一個韻律語音規(guī)則連接到要讀出的特定文本以及當正確地讀出時的對應的語音數(shù)據(jù)。為每一種語言和最廣泛使用的方言準備了特定的韻律聲音庫。每一個特定韻律聲音庫都包含綜合詞典；韻律語音規(guī)則；代表規(guī)則的圖形標記符號；正確地遵循了規(guī)則的那些發(fā)音的示范性語音數(shù)據(jù)，以及那些示范性發(fā)音的文本。特定語言和方言的綜合的韻律聲音庫是推導、因此也是規(guī)定唯一地與應用的韻律語音規(guī)則關聯(lián)的發(fā)音的共振峰參數(shù)值的基礎。
根據(jù)本發(fā)明的一個實施例的示范性韻律聲音庫數(shù)據(jù)庫包括a)代表要合成為語音的文本的文本單詞和句子選項。
b)為實現(xiàn)可理解的發(fā)音而對文本進行計算機化標記的一套規(guī)則。這些規(guī)則可以包括輔音、元音、共同發(fā)音，以及停頓規(guī)則。
c)如這里所描述的兩個韻律-“報告”和“人類興趣”的韻律規(guī)則。這些韻律被標記并被讀出，并被包括進來。這些規(guī)則規(guī)定了隨著時間而變化的值，如音高、音量、節(jié)奏、說話速度、以及單詞重讀的變化。
d)應用于文本的韻律語音規(guī)則的調(diào)和人工標記的副本。
e)被標記的文本的發(fā)音。代表以“報告”韻律讀出的所有單詞和句子的四個實踐者的WAV數(shù)據(jù)文件，加上“人類興趣”韻律讀出的某些句子的示例。
理想情況下，示范性韻律聲音庫數(shù)據(jù)庫結構包括WAV數(shù)據(jù)、文本、圖形，以及數(shù)值數(shù)據(jù)。還可以添加示范性軟件語句、源代碼修改，以及合成器規(guī)范值。一個示范性韻律聲音庫數(shù)據(jù)庫可以包含大約8到12GB數(shù)據(jù)。市場上銷售的現(xiàn)成的關系數(shù)據(jù)庫目前不允許WAV數(shù)據(jù)與文本、圖形、音頻CD，以及數(shù)值數(shù)據(jù)組合在一起。相應地，本發(fā)明可以使用臨時數(shù)據(jù)庫結構來驗證產(chǎn)品設計，以將WAV數(shù)據(jù)與文本、圖形，以及數(shù)值數(shù)據(jù)組合在一起。還可以添加示范性軟件語句、源代碼修改，以及合成器規(guī)范值。一個示范性LAL數(shù)據(jù)庫可以包含大約8到12GB數(shù)據(jù)。如果需要，可以根據(jù)使用臨時性結構的結果，細化用于結合、存儲和處理數(shù)據(jù)庫組件的體系結構；該體系結構對于結合包含文本、圖形、聲音和數(shù)值數(shù)據(jù)的綜合數(shù)據(jù)庫很有用。
示范性軟件。已知的語音合成器或合成器引擎可以包括文本輸入裝置，例如，一個或多個數(shù)據(jù)文件，掃描儀以及使文本數(shù)據(jù)以適當?shù)男问綄ο到y(tǒng)是可用的關聯(lián)的軟件和硬件；數(shù)據(jù)處理單元，以及關聯(lián)的數(shù)據(jù)存儲器，用于實現(xiàn)軟件并執(zhí)行語音合成操作；可由數(shù)據(jù)處理單元實現(xiàn)的語音合成軟件，該軟件也可以被描述為軟件引擎，用于將文本數(shù)據(jù)轉換為語音數(shù)據(jù)，以及音頻輸出裝置，例如，能夠向揚聲器或耳機提供音頻信號的音頻端口，以及最終以音頻形式輸出從語音合成軟件接收到的語音數(shù)據(jù)的關聯(lián)的硬件和軟件。
可以理解，語音可以作為語音文件(例如，.wav文件)來存儲、傳遞或分發(fā)，如果需要，用于在合成之后的某個時間播放。
常規(guī)地，已經(jīng)開發(fā)出了這樣的已知的語音合成器來實現(xiàn)特定的、有限的語言和合成規(guī)則集，當從諸如音素、單詞或短語之類的小的語音組件結合時，它們的輸出過分像機器讀的，沒有人性化。本發(fā)明提供了新穎的語音合成器和語音合成軟件，使用源代碼實現(xiàn)附加的和/或可替換的語言規(guī)則來實現(xiàn)這里的教導，使用本發(fā)明的新穎的文本-標記符號和韻律標記來提供有吸引力的人性化的語音輸出。根據(jù)本發(fā)明，語音合成軟件可以指定適當?shù)恼Z音合成器的聲音輸出值，該語音合成器產(chǎn)生對應于如圖所示通過發(fā)音表示法和圖形符號應用于文本的發(fā)音規(guī)則的聲音，利用發(fā)音表示法和圖形符號標記文本，以確定輸出語音的發(fā)音和韻律。
示范性軟件?？梢杂梢粋€或多個精通本技術的人員，例如，熟悉共振峰文本到語音轉換(“TTS”)引擎軟件的工程師和/或計算機語言學家，提供適合這里所描述的本發(fā)明的用途的實現(xiàn)本發(fā)明的適當?shù)能浖??？梢韵蛞阎Z音軟件引擎中添加適當?shù)母郊拥恼Z言規(guī)則和合成器信號規(guī)范，以構建和測試體現(xiàn)了或用于實施本發(fā)明的軟件。例如，可以對這里所描述的樣本韻律聲音庫數(shù)據(jù)庫進行分析，以隔離本發(fā)明的發(fā)音標記符號和已知的共振峰TTS合成器中目前沒有規(guī)定的共同發(fā)音的對應的WAV數(shù)據(jù)，并可以向已知合成器中添加必需的元素。
除了用于從文本通過機器生成有吸引力的甚至優(yōu)雅的語音之外，所產(chǎn)生的語音合成軟件程序還可以幫助教育軟件工程師或其他人在實踐中理解在軟件中實現(xiàn)的Lessac或其他語音訓練系統(tǒng)，并理解所使用的新穎的韻律語音規(guī)則。它還可以識別要編程的項目以適應這里所描述的所需要的附加的語言學、語音學，以及韻律規(guī)則和新穎的聲頻信號參數(shù)。
示范性軟件可以手工編寫，將標記編程到文本中，并為合成器的發(fā)聲指定關聯(lián)的語音值。一旦這樣的樣本完成，可以自動地使用計算機化系統(tǒng)對較大的詞典進行編程，該計算機化系統(tǒng)直接使用要合成的文本作為輸入，并在特定單詞、句子和短語的上下文中應用該特定文本所需的規(guī)則，以指定混合型共振峰和級聯(lián)的參數(shù)以及值。共振峰參數(shù)值是那些產(chǎn)生在文本標記中規(guī)定的發(fā)音和韻律所需的值，根據(jù)特定發(fā)音和/或標記的韻律規(guī)則操作，并根據(jù)將要輸出的語音身份特征、基波頻率、諧波等等進行操作。
收聽者測試。本發(fā)明預期使用根據(jù)本發(fā)明的合成的語音輸出的收聽者測試來提供用于改進產(chǎn)品的反饋?？梢圆樵兟牨娪嘘P對清晰度改善的感覺以及消息理解以及有關樣本發(fā)聲是否好于常規(guī)的比較產(chǎn)品(例如，Sensimetrics的HLSYN(商標)或SENSYN(商標)共振峰合成器)的判斷。理想情況下，對感覺、理解和偏愛的測量，使用了驗證過的試驗設計和數(shù)據(jù)采集技術，如相應的技術中已知的那樣。
從前面的描述中可以看出，要讀出的文本可以用從包括下列各項的組中選擇的一個、一個以上或所有韻律圖形符號來標記出，該組包括根據(jù)所希望的韻律，指出發(fā)出字母、雙元音、音節(jié)或其他語音元素所需的音高控制的圖形符號；指出上升的音高的上滑符號；指出下降的音高的下滑符號；指出上升然后下降的音高或下降然后上升的音高的抑揚符號；指出不變的音高的水平維持；貫穿后面跟隨緊密相關的或相同的發(fā)音的輔音的第一個字母的正斜杠，以指出準備了第一個字母；淺的U形的連音吊床形符號，以指出通過其他字母彼此分離的字母以連續(xù)的方式讀出，它們之間沒有停頓；單下劃線，以分別標記為可播放的敲擊聲，包括定音鼓鼓聲D、B和G和響弦，低音和手鼓鼓聲T、P和K，未標記的輔音不可播放；雙下劃線，以標記為可播放的弦樂器聲N、M、V和Z，木管樂器聲L、NG、TH和ZH，以及(無聲)音響效果F、S、SH和th，未標記的輔音不可播放；要讀出的文本中的字母組合WH上方或附近標記出的字母組合“hw”，以指出H應該首先發(fā)音，接下來是W，兩者都不應該播放；Y和W連接詞，以指出當[Y]或[W]在另一個元音之前出現(xiàn)時，應該從一個單詞到下一個單詞或從一個音節(jié)到下一個音節(jié)保持語音連續(xù)性，Y和W連接詞各自都包括分別從Y或W下面環(huán)行到跟隨的元音的像吊床的淺的U形，連同分別標記在U之中、靠近U或貫穿U的小的Y或W字母；其中，元音之前的輔音被規(guī)定為說出但不標記為可播放。
作為可替換方案或除此以外，要說出的文本可用從包括下列各項的組中選擇的一個、一個以上或所有韻律圖形符號來標記出，該組包括直接鏈接，包括掛在被鏈接的字母下面和之間的連音吊床形符號，以指出說出的動量應該從一個鏈接的字母傳到下一個字母，單詞之間沒有中斷或停頓或暫停；播放-和-鏈接，包括與第一輔音的單或雙下劃線相結合的連音吊床形符號，以指出播放第一輔音，不播放第二輔音；準備-和-鏈接，包括貫穿作為要準備的輔音的第一輔音的正斜杠，與到第二輔音的連音吊床形符號相結合，以顯示第一和第二輔音之間的鏈接，可播放的輔音用下劃線表示。
這里描述了可以在本發(fā)明中使用的標記指令的多個可能的實施例，如果需要，可以包括在韻律聲音庫數(shù)據(jù)庫中，如在這里所描述的。根據(jù)本發(fā)明，可以理解，這里所描述的新穎的聲音值代碼，或圖示符號集和表示法僅是可從這里的說明中看出的、可以用于本發(fā)明的用途的代碼的說明性的例子此外，盡管是在英語的上下文中描述示范性聲音值代碼的，可以理解，本發(fā)明也包括為其他語言的特定需要而發(fā)明的其他編碼系統(tǒng)，它們體現(xiàn)了這里的有關發(fā)音標記的一般原理，以便與根據(jù)另一個語言的需要而制定的，適當?shù)匦薷牡恼Z音規(guī)則一致。如此，本發(fā)明的方法可以以從下面的組中選擇的語言實現(xiàn)，該組包括英語；美國英語；法語；西班牙語；德語；日語；俄語；中文；阿拉伯語；印地語；具有圖形符號集和基于規(guī)則的語法的書面語言和口語；前述的語言或其他語言中的任何一種語言的方言和專業(yè)子集，根據(jù)在此的教導，子集或方言對于那些精通本技術的人員是顯而易見的。
可以理解，Lessac或其他語音訓練規(guī)則對于相對來說較小語音元素(包括單個字母和兩個或三個字母的組合)的可理解性的發(fā)音特別有效，而這里所描述的韻律規(guī)則對于將播放、停頓、重讀及其他韻律技術應用到通常在較大的語音元素(包括整個單詞、短語、句子或段落)的上下文中的這種字母或字母組合很有用。
概括地說，本發(fā)明提供了用圖形方式代表的全局規(guī)則集，包括對于可理解性的發(fā)音規(guī)則以及對于節(jié)奏和旋律的韻律規(guī)則，當由熟練的語音實踐者應用到要說出的文本時，無論是通過人類還是由機器，都可以為清晰的、有吸引力甚至旋律美妙的語音輸出提供明確的模板。
引用的公開。在此說明書中或在此專利申請中的別處引用的每個美國專利和專利申請，每一個外國和國際專利出版物，每一個其他出版物和每一個未出版的專利申請的全部的內(nèi)容，都通過對其相應的特定引用而被全文引入在此。
盡管上文描述了本發(fā)明的說明性實施例，當然，應該理解，各種修改對于本領域技術人員是顯然的，或隨著技術的發(fā)展是顯然的。這樣的修改預期在本發(fā)明或在此說明書中公開的發(fā)明的精神和范圍之內(nèi)。
權利要求(按照條約第19條的修改)1.一種對文本進行標記以便用于從文本合成語音的方法，該方法包括以一個或更多個圖形符號標記要說出的文本，以向說話者指出在說出文本時要使用的所希望的語音特征，其特征在于，使用表示要賦予由說話者說出的文本的所希望的韻律的聲音代碼作為圖形符號。
2.根據(jù)權利要求1所述的方法，其特征在于，所賦予的韻律包括從包括速度、語調(diào)模式、節(jié)奏、音感、振幅、重音和氣息音的停頓、以及單詞和短語的正式和非正式的發(fā)音的組中選擇的一個或更多個韻律元素。
3.根據(jù)權利要求2所述的方法，其特征在于，包括用圖形韻律符號來標記可見的文本或用圖形符號的電子形式來以電子方式標記電子文本，以電子方式標記的文本可作為人類可讀的用圖形方式標記的文本來顯示或打印，并可用于以允許對輸出語音的韻律進行控制的方式向語音合成器傳遞所希望的韻律。
4.根據(jù)權利要求1、2或3所述的方法，其特征在于，要說出的文本用從包括下列各項的組中選擇的一個、一個以上或所有韻律圖形符號來標記出，該組包括根據(jù)所希望的韻律，指出發(fā)出字母、雙元音、音節(jié)或其他語音元素所需的音高控制的圖形符號；指出上升的音高的上滑符號；指出下降的音高的下滑符號；指出上升然后下降的音高或下降然后上升的音高的抑揚符號；指出不變的音高的水平維持；貫穿后面跟隨緊密相關的或相同的發(fā)音的輔音的第一個字母的正斜杠，以指出準備了第一個字母；淺的U形的連音吊床形符號，以指出被其他字母彼此分離的字母要以連續(xù)的方式讀出，它們之間沒有停頓；單下劃線，以分別標記為可播放的敲擊聲，包括定音鼓鼓聲D、B和G以及響弦鼓，低音附和手鼓鼓聲T、P和K，未標記的輔音不可播放；雙下劃線，以標記為可播放的弦樂器聲N、M、V和Z木管樂器聲、L、NG、TH和ZH和(無聲)音響效果F、S、SH和th，未標記的輔音不可播放；要讀出的文本中的字母組合WH上方或附近標記出的字母組合“hw”，以指出H應該首先聲音，接下來是W，兩者都不應該被播放；Y和W連接詞，以指出當[Y]或[W]在另一個元音之前出現(xiàn)時，應該從一個單詞到下一個單詞或從一個音節(jié)到下一個音節(jié)保持語音連續(xù)性，Y和W連接詞各自都包括分別從Y或W下面環(huán)行到隨后元音的像吊床的淺的U形，連同小的Y或W字母分別標記在U之中、靠近U或貫穿U；其中，元音之前的輔音被規(guī)定為讀出但不標記為是可播放的。
5.根據(jù)權利要求1、2、3或4所述的方法，其特征在于，要說出的文本用從包括下列各項的組中選擇的一個、一個以上或所有韻律圖形符號來標記出直接鏈接，包括掛在被鏈接的字母下面和之間的連音吊床形符號，以指出說出的動量應該從一個鏈接的字母傳到下一個字母，單詞之間沒有中斷或停頓或暫停；播放-和-鏈接，包括與第一輔音的單或雙下劃線相結合的連音吊床形符號，以指出播放第一輔音，不播放第二輔音；包括貫穿作為要準備的輔音的第一輔音的正斜杠的準備-和-鏈接，其與到第二輔音的連音吊床形符號相結合，以顯示第一和第二輔音之間的鏈接，可播放的輔音用下劃線表示。
6.根據(jù)權利要求1、2、3、4、或5所述的方法，其特征在于，將韻律圖形符號放置于要說出的文本附近，在文本緊上方的行中協(xié)調(diào)韻律圖形符號，或有選擇地將韻律圖形符號放置于文本下面或將韻律圖形符號放置于文本上面和文本下面。
7.根據(jù)權利要求1、2、3、4或5所述的方法，其特征在于，通過在行中呈現(xiàn)文本來標記要說出的文本，在文本上方標記出可理解性發(fā)音記號，在文本之下標記出韻律圖形符號，在可理解性發(fā)音記號行上方標記出音高基準線，并在音高基準線上方標記出其他韻律符號，以指出所希望的音高變化和重音。
8.根據(jù)權利要求7所述的方法，其特征在于，音高基準線包括Y蜂音音高線，使用較小的點在Y蜂音音高線的上方標記出所希望的語調(diào)模式，以指出較輕的重讀，用較大的點指出較強的重讀，點位于Y蜂音音高線的上方的水平，表示相對于說話者的Y蜂音音高線的所希望的音高。
9.根據(jù)權利要求1、2、3、4或5所述的將韻律標記自動應用于文本的方法，其特征在于，包括至少使用一種計算語言學算法來標識和標記要讀出的文本，以指出所希望的韻律發(fā)音。
10.根據(jù)權利要求9所述的方法，其特征在于，包括使用對應于所希望的發(fā)音聲音的代碼變量，生成可用來指定至語音合成器的輸入的聲音變量的值，以便作為合成的語音輸出被標記的文本。
11.根據(jù)權利要求1、2、3、4或5所述的方法，其特征在于，包括使用包括以數(shù)字方式記錄的語音元素的聲音庫，語音元素是以由圖形符號標記指出的韻律說出的。
12.根據(jù)權利要求11所述的方法，其特征在于，其是以從下面的組中選擇的語言實現(xiàn)，該組包括英語；美國英語；法語；西班牙語；德語；日語；俄語；中文；阿拉伯語；印地語；具有圖形符號集和基于規(guī)則的語法的書面語言和口語；前述的語言中的任何一種語言的方言和專業(yè)子集。
13.根據(jù)權利要求1、2、3、4或5所述的方法，其特征在于，包括由一個或多個經(jīng)過訓練的人利用韻律圖形符號來促進合成的語音輸出中的人性化的聲音，該合成的語音輸出可選地是共振峰語音輸出，該經(jīng)過訓練的人根據(jù)具有韻律圖形符號的文本的標記，準確地讀出文本，以產(chǎn)生讀出的語音的數(shù)據(jù)庫，其中包含了準確地遵循語音-代碼-標記的文本的讀出的語音。
14.根據(jù)權利要求13所述的方法，其特征在于，以數(shù)字方式呈現(xiàn)韻律圖形符號和在合成器軟件中使用圖形符號，以便對要由機器說出的文本進行電子標記，從而促進或引導將韻律元素的數(shù)字域引入到輸出語音中。
15.根據(jù)權利要求14所述的方法，其特征在于，對應于文本的圖形記號的記錄的語音包括一個或多個字母、單詞、短語、句子、段落和比較長的文本，它們被數(shù)字化到數(shù)據(jù)庫中，并被分析，以提供算法或韻律學，以規(guī)定對應于特定文本的特定語音數(shù)據(jù)和與文本相關的圖形記號的關系。
16.根據(jù)權利要求15所述的方法，其特征在于，利用一個或多個所提供的算法或韻律學來向語音合成器提供輸入?yún)?shù)，以對于要合成的特定文本重新創(chuàng)建模擬人類語音的聲音，作為具有規(guī)定的韻律的語音。
17.一種由輸入到語音合成器的聲音編碼變量控制的語音合成器，其特征在于，聲音編碼變量對應于被用于生成具有所希望的韻律發(fā)音的記錄的人類語音的韻律規(guī)范，以及其特征在于，所述記錄的人類語音被用于提供實現(xiàn)所希望的韻律發(fā)音的合成的語音輸出。
權利要求
1.一種在聲學上對文本進行編碼，以便用于從文本合成語音的方法，該方法包括以一個或更多個圖形符號標記要讀出的文本，以向說話者指出賦予要說出的文本的所希望的韻律。
2.根據(jù)權利要求1所述的方法，其中所要賦予的韻律包括從包括速度、語調(diào)模式、節(jié)奏、音感、振幅、重音和氣音的停頓、以及單詞和短語的正式和非正式的發(fā)音的組中選擇的一個或更多個韻律元素。
3.根據(jù)權利要求2所述的方法，包括用圖形韻律符號來標記可見的文本或用圖形符號的電子形式來以電子方式標記電子文本，以電子方式標記的文本可作為人類可讀的用圖形方式標記的文本來顯示或打印。
4.根據(jù)權利要求1所述的方法，其中，要讀出的文本用從包括下列各項的組中選擇的一個、一個以上或所有韻律圖形符號來標記，該組包括根據(jù)所希望的韻律，指出發(fā)出字母、雙元音、音節(jié)或其他語音元素所需的音高控制的圖形符號；指出上升的音高的上滑符號；指出下降的音高的下滑符號；指出上升然后下降的音高或下降然后上升的音高的抑揚符號；指出不變的音高的水平維持；貫穿后面跟隨緊密相關的或相同的發(fā)音的輔音的第一個字母的正斜杠，以指出準備了第一個字母；淺的U形的連音吊床形符號，以指出被其他字母彼此分離的字母要以連續(xù)的方式讀出，它們之間沒有停頓；單下劃線，以分別標記為可播放的敲擊聲，包括定音鼓鼓聲D、B和G以及響弦鼓，低音鼓和手鼓鼓聲T、P和K，未標記的輔音不可播放；雙下劃線，以標記為可播放的弦樂器聲N、M、V和Z木管樂器聲L、NG、TH和ZH和(無聲)聲響效果F、S、SH和th，未標記的輔音不可播放；要讀出的文本中的字母組合WH上方或附近標記出的字母組合“hw”，以指出H應該首先聲音，接下來是W，兩者都不應該被播放；Y和W連接詞，以指出當[Y]或[W]在另一個元音之前出現(xiàn)時，應該從一個單詞到下一個單詞或從一個音節(jié)到下一個音節(jié)保持語音連續(xù)性，Y和W連接詞各自都包括分別從Y或W下面環(huán)行到隨后元音的像吊床的淺的U形，連同小的Y或W字母分別標記在U之中、靠近U或貫穿U；其中，元音之前的輔音被規(guī)定為要讀出但不標記為是可播放的。
5.根據(jù)權利要求1所述的方法，其中要說出的文本用從包括下列各項的組中選擇的一個、一個以上或所有韻律圖形符號來標記，該組包括直接鏈接，包括掛在被鏈接的字母下面和之間的連音吊床形符號，以指出說出的動量應該從一個鏈接的字母傳到下一個字母，單詞之間沒有中斷或停頓或暫停；播放-和-鏈接，包括與第一輔音的單或雙下劃線相結合的連音吊床形符號，以指出播放第一輔音，不播放第二輔音；包括貫穿作為要準備的輔音的第一輔音的正斜杠的準備-和-鏈接，其與到第二輔音的連音吊床形符號相結合，以顯示第一和第二輔音之間的鏈接，可播放的輔音用下劃線表示。
6.根據(jù)權利要求1所述的方法，其中，韻律圖形符號被放置于要說出的文本附近，在文本緊上方的行中被協(xié)調(diào)，或有選擇地被放置于文本下面或被放置于文本上面和文本下面。
7.根據(jù)權利要求1所述的方法，其中，被標記的要讀出的文本在文本行中呈現(xiàn)，可理解性發(fā)音記號在文本上方標記出，韻律圖形符號在文本之下標記出，其中，音高基準線在可理解性發(fā)音記號行上方標記出，以及其中，其他韻律符號在音高基準線上方標記出，以指出所希望的音高變化和重音。
8.根據(jù)權利要求7所述的方法，其中，音高基準線包括Y蜂音音高線，其中，所希望的語調(diào)模式被使用較小的點在Y蜂音音高線的上方標記出，以指出較輕的重讀，用較大的點指出較強的重讀，點位于Y蜂音音高線的上方，表示相對于說話者的Y蜂音音高線的所希望的音高。
9.根據(jù)權利要求1所述的將韻律標記自動應用于文本的方法，包括至少使用一種計算語言學算法來標識和標記要發(fā)音的文本，以指出所希望的韻律發(fā)音。
10.根據(jù)權利要求9所述的方法，包括使用對應于所希望的發(fā)音聲音的代碼變量，生成可用來指定至語音合成器的輸入的聲音變量的值，以便作為合成的語音輸出被標記的文本。
11.根據(jù)權利要求1所述的方法，包括使用包括以數(shù)字方式記錄的語音元素的聲音庫，語音元素是以由圖形符號標記指出的韻律說出的。
12.根據(jù)權利要求11所述的方法，其是以從下面的組中選擇的語言實現(xiàn)，該組包括英語；美國英語；法語；西班牙語；德語；日語；俄語；中文；阿拉伯語；印地語；具有圖形符號集和基于規(guī)則的語法的書面語言和口語；前述的語言中的任何一種語言的方言和專業(yè)子集。
13.一種由輸入到語音合成器的聲音編碼變量控制的語音合成器，該聲音編碼變量對應于用于生成具有所希望的韻律發(fā)音的記錄的人類語音的韻律規(guī)范，以提供實現(xiàn)了所希望的韻律發(fā)音的合成的語音輸出。
全文摘要
公開了一種在聲學上對文本進行編碼以便用于從文本合成語音的方法和系統(tǒng)，該方法包括以一個或多個圖形符號標記要讀出的文本，以向說話者指出賦予說出的文本的所希望韻律，以傳遞可表達的含義。標記可以包括字形－音素對，每一對都包括指出可與書寫文本一起使用的字形的可見的韻律和在數(shù)字域中起作用的對應的數(shù)字音素。本發(fā)明可用于為各種各樣的應用生成有吸引力、人性化的機器語音，這些應用包括語音郵件系統(tǒng)、以電子方式啟用的設備、汽車、計算機、機器人助理、游戲等等，在會說話的書和雜志中、戲劇及其他娛樂中。
文檔編號G10H1/40GK1938756SQ200580007209
公開日2007年3月28日申請日期2005年3月7日優(yōu)先權日2004年3月5日
發(fā)明者加里·馬普, 休·A·帕克, H·D·維爾森, 南?！た氯鸩妓? 戴安娜·加里, 百利·柯爾申請人:萊塞克技術公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：加里.馬普;休.A.帕克;H.D.維爾森;南希.柯瑞布斯;戴安娜.加里;百利.柯爾
技術所有人：萊塞克技術公司
我是此專利的發(fā)明人

上一篇：生成等級參數(shù)的設備和方法及生成多通道表示的設備和方法
上一篇：差錯隱藏裝置以及差錯隱藏方法

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

韻律語音文本代碼以及它們在計算機化語音系統(tǒng)中的使用的制作方法