專利名稱:話音合成方法以及執(zhí)行此方法的話音合成器的制作方法
技術領域:
本發(fā)明涉及一種話音(voice)合成方法以及執(zhí)行這一方法的話音合成器和系統(tǒng)。更具體地說,本發(fā)明涉及一種話音合成方法,這種方法將具有幾乎固定不變內容的立體聲類型語句經話音合成后,轉換為一種話音。本發(fā)明還涉及一種用于執(zhí)行這一方法的話音合成器以及一種數據生成方法,該方法對獲得上述方法和話音合成器來說,是必不可少的。本發(fā)明特別用于含有便攜式終端設備的通信網絡中,其中每個終端設備都有一個話音合成器和一個可與該便攜式終端設備連接的數據通信裝置。
一般來說,話音合成是生成話音聲波的一種方案,話音聲波根據以下因素生成表示說話內容的發(fā)音符號(話音元素符號)、是話音聲調的物理度量的音調的時間串行模式(基頻模式)以及每一話音元素的持續(xù)時間與功率(話音元素強度)。在下面,上述三種參數,即基頻模式、話音元素持續(xù)時間以及話音元素強度一般稱為“韻律參數”,話音元素符號和韻律參數的組合一般稱為“韻律數據”。
生成話音聲波的典型方法有以下兩種,一種是驅動利用濾波器模仿一個話音元素的聲域特征的參數的參數合成方法;另一種是聲波級聯方法,從人說話生成的話音聲波中提取表示各個話音元素特征的只言片語,并將這些只言片語連接起來。顯然,生成“韻律數據”在話音合成中是非常重要的。話音合成方法一般可用于包括日話在內的語言。
話音合成需要設法獲得與要進行話音合成的語句內容相對應的韻律參數。在話音合成技術適用于電子郵件與電子報紙的讀出等的情況下,例如,應對任何語句進行語言分析,以識別字詞或短語之間的界限,同時還應確定短語的重音類型,此后應從重音信息、音節(jié)信息等中獲得韻律參數。已經建立這些與自動轉換有關的基本方法,并且能利用公開在“基于字詞之間的連接強度的語音系統(tǒng)的日文文本的結構分析儀”(1995年日本聲學學會會刊第51卷第1期第3-13頁)中的方法來獲得這些基本方法。
在韻律參數之中,由于包括音節(jié)(話音元素)所在的上下文的各種因素,音節(jié)(話音元素)的持續(xù)時間各不相同。影響持續(xù)時間的因素包括對聲音清晰度的限制,例如音節(jié)的類型、時間、字的重要性、短語界限的指示、短語中的節(jié)拍、整個節(jié)拍以及語言限制,例如句法的意思??刂圃捯粼爻掷m(xù)時間的一般方法是就上述因素對實際觀察到的持續(xù)時間數據的影響程度進行統(tǒng)計分析,并使用通過分析得到的規(guī)則。例如,“用規(guī)則對語音(speech)合成進行音素持續(xù)時間控制”(電子、信息和通信工程師學會會刊,1984/7,第J67-A卷第7期)描述了一種韻律參數計算方法。當然,韻律參數的計算并不僅限于這種方法。
雖然上述話音合成方法涉及將任意語句轉換為韻律參數的方法或文本話音合成方法。但在合成與具有準備合成的預定內容的立體聲類型語句相對應的話音的情況中,存在著另外一種計算韻律參數的方法。諸如在基于話音的消息通知中使用的語句或使用電話機的話音通告服務的立體聲類型語句的話音合成不象任何給定語句的話音合成那樣復雜。因此,有可能把與語句的結構或模式對應的韻律數據存儲在數據庫中,并在計算韻律參數時搜索存儲的模式和使用與上述模式類似的模式的韻律參數。與利用文本話音合成方法得到的合成話音相比,此方法可大大提高合成話音的逼真度。例如,日本專利公開號249677/1999中公開了采用上述方法的韻律參數計算方法。
合成話音的聲調取決于韻律參數的質量。合成話音的語音格式,諸如,情感表達或方言,可通過適當控制合成話音聲調進行控制。
涉及立體聲類型語句的傳統(tǒng)話音合成方案主要用于基于話音的信息通知或使用電話的話音通告服務。然而,在這些方案的實際應用中,合成話音固定于一種語音格式而各種各樣的話音,諸如方言和外語話音不能根據需要自由合成。因此,需要將一些方言或類似方言的東西裝入諸如蜂窩電話與玩具這樣一些要求某種樂趣的設備中,并且提供外語話音的方案對于設備的國際化來說是必不可少的。
然而,常規(guī)技術在開發(fā)過程中沒有考慮在進行話音合成時將話音內容任意轉換為每一種方言或表達方式,因此碰到技術上的困難。此外,常規(guī)技術使除了系統(tǒng)用戶與操作人員之外的第三方難以自由地準備韻律數據。還有,像蜂窩電話這樣一種計算資源極受限制的設備不能利用各種語音格式來合成話音。
因此,本發(fā)明的主要目的是提供一種話音合成方法和話音合成器,利用用于一種立體聲類型語句的各種語音格式在其中安裝有話音合成裝置的終端設備中合成話音。
本發(fā)明的另一個目的是提供一種韻律數據分配方法,可以允許除了話音合成器的制造商、擁有者與用戶之外的第三方準備“韻律數據”,并允許話音合成器的用戶使用此數據。
為了達到這些目的,根據本發(fā)明的話音合成方法配備有許多話音內容標識符來指示在合成話音中要輸出的話音內容的類型;準備一個語音格式詞典,用于為每一話音內容標識符存儲多種語音格式的韻律數據;在執(zhí)行話音合成時,指示所需的話音內容標識符和語音格式;從語音格式詞典中讀出指示的韻律數據;并將讀出的韻律數據轉換為話音作為話音合成器驅動數據。
根據本發(fā)明的話音合成器由以下裝置組成用于生成識別指定在合成話音中要輸出的話音內容類型的內容類型的標識符的裝置;語音格式指示裝置,用于指示在合成話音中要輸出的話音內容的語音格式;語音格式詞典,包含多種語音格式,這些格式分別對應于許多話音內容標識符以及與這些話音內容標識符和語音格式相關的韻律數據;話音合成部分,在話音內容標識符和語音格式指示之后,該部分從語音格式詞典中讀出與指定的話音內容標識符和語音格式相關的韻律數據,并將此韻律數據轉換為話音。
語音格式詞典可以在制造話音合成器或終端設備時事先安裝在話音合成器或配有話音合成器的便攜式終端設備中,或者只有與必不可少的話音內容標識符和任意語音格式相關的韻律數據才可以通過通信網絡裝載到話音合成器或終端設備中,或者語音格式詞典可安裝在便攜式壓縮存儲器中,該存儲器可裝配在此終端設備中??梢酝ㄟ^向除了終端設備的制造商和網絡管理員之外的第三方公開話音內容的管理方法并允許第三方按照此管理方法準備含有與話音內容標識符相關的韻律參數的語音格式詞典來準備語音格式詞典。
本發(fā)明允許安裝在話音合成器或配有話音合成器的終端設備中的程序的每一個開發(fā)者利用只從有關指示將待合成的話音的語音格式的語音格式指示器的信息中獲得的所需語音格式和話音內容標識符來完成話音合成。此外,在準備語音格式詞典的人只需準備與語句標識符相對應的語音格式詞典而不考慮合成程序的操作時,能容易地利用所需的語音格式來進行話音合成。
本發(fā)明的這個與其他優(yōu)點在參照附圖閱讀與理解下面的描述之后對于本領域技術人員將變得顯而易見。
圖1是表示使用根據本發(fā)明的話音合成器和話音合成方法的信息分配系統(tǒng)的一個實施例的方框圖;圖2是表示蜂窩電話機的一個實施例的結構的圖,此蜂窩電話機是裝備有本發(fā)明的話音合成器的終端設備;圖3是用于解釋話音內容標識符的圖;圖4是表示根據標準語言的標識符進行語音合成的語句的圖;圖5是表示根據大阪(Ohsaka)方言的標識符進行話音合成的語句的圖;圖6是表示根據一個實施例的語音格式詞典的數據結構的圖;圖7是表示對應于圖6所示的每一個標識符的韻律數據的數據結構的圖。
圖8是表示與圖5所示的語音格式詞典中的Ohsaka方言“meiru gakitemasse”相對應的話音元素表的圖;圖9是表示根據本發(fā)明的話音合成方法的一個實施例的話音合成程序的圖;圖10是表示根據本發(fā)明的蜂窩電話機的一個實施例的顯示部分的圖;圖11是表示根據本發(fā)明的蜂窩電話機的此實施例的顯示部分的圖。
圖1是表示使用本發(fā)明的話音合成器和話音合成方法的信息分配系統(tǒng)的一個實施例的方框圖。
此實施例的信息分配系統(tǒng)具有通信網絡3和連接到此通信網絡3的語音格式存儲服務器1與4,諸如裝備有本發(fā)明的話音合成器的蜂窩電話機的便攜式終端設備(以下簡稱“終端設備”)可連接到該通信網絡。終端設備7具有用于指示對應于終端設備用戶8指示的語音格式的語音格式詞典的裝置;數據傳送裝置,用于將指示的語音格式詞典從服務器1或4傳送到終端設備;和語音格式詞典存儲裝置,用于將傳送的語音格式詞典存儲在終端設備7的語音格式詞典存儲器中,以便利用終端設備用戶8所指示的語音格式進行話音合成。
現在將描述其中終端設備用戶8利用語音格式詞典設置合成話音的語音格式的模式。
第一種方法是“預安裝”方法,允許諸如制造商的終端設備提供者9將語音格式詞典安裝在終端設備7中。在這種情況下,數據生成器10準備語音格式詞典,并將語音格式詞典提供給便攜式終端設備提供者9,而便攜式終端設備提供者9將此語音格式詞典存儲在終端設備7的存儲器中,并將終端設備7提供給終端設備用戶8。在第一種方法中,終端設備用戶8可以從開始使用終端設備7起設置與更改輸出話音的語音格式。
在第二種方法中,數據生成器5將語音格式詞典提供給擁有便攜式終端設備7可與之連接的通信網絡3的通信公司2,而通信公司2或數據生成器5將此語音格式詞典存儲在語音格式存儲服務器1或4中。當通過終端設備7從終端設備用戶8中接收到語音格式詞典的傳送(下載)請求時,通信公司2確定便攜式終端設備7是否能獲得存儲在語音格式存儲服務器1中的語音格式詞典。此時,通信公司2可以根據語音格式詞典的特性向終端設備用戶8收取通信費用或下載費用。
在第三種方法中,除了終端設備用戶8、終端設備提供者9以及通信公司2之外的第三方5通過查閱話音內容管理表(表示立體聲類型語句類型的標識符的相關數據)來準備語音格式詞典,并將語音格式詞典存儲在語音格式存儲服務器4中。當終端設備7通過通信網絡3接入時,服務器4允許語音格式詞典的下載以響應終端設備用戶8的請求。已下載語音格式詞典的終端設備7的擁有者8選擇所需的語音格式來設置由終端設備7將要輸出的合成話音消息(立體聲類型語句)的語音格式。此時,數據生成器5可以通過作為代理的通信公司2根據語音格式詞典的特性向終端設備用戶8收取許可證費用。
使用上述三種方法之中的任何一種方法,終端設備用戶8獲得語音格式詞典,以便設置與變更在終端設備7中將要輸出的合成話音的語音格式。
圖2是表示蜂窩式電話機的一個實施例的結構的圖,該電話機是裝備有本發(fā)明的話音合成器的終端設備。蜂窩電話7具有天線18、無線處理部分19、基帶信號處理部分21、輸入/輸出部分(輸入密鑰、顯示部分等)以及話音合成器20。由于除話音合成器20之外的其它部分均與現有技術的部分相同,所以將省略其描述。
在此圖中,在從終端設備7之外獲得語音格式詞典時,話音合成器20中的語音格式指示裝置11利用話音內容標識符輸入裝置12所指示的話音內容標識符獲得語音格式詞典。話音內容標識符裝置12接收話音內容標識符。例如,當終端設備7接收到一個郵件時,話音內容標識符輸入裝置12自動接收表示通知郵件從基帶信號處理部分21中到達的消息的標識符。
語音格式詞典存儲器14(我們將在后面對該裝置進行詳細討論)存儲與話音內容標識符相對應的語音格式和韻律數據。或預先裝入或通過通信網絡3下載數據。韻律參數存儲器15存儲來自語音格式詞典存儲器14的選擇的與特定的語音格式的合成話音的數據。合成聲波存儲器16將來自語音格式詞典存儲器14的數據轉換為聲波信號,并存儲這一信號。話音輸出部分17輸出作為聲信號從合成聲波存儲器16讀出的聲波信號,并且也可以用作蜂窩電話機的揚聲器。
話音合成裝置13是信號處理單元,存儲有驅動與控制上述各個裝置和存儲器并執(zhí)行話音合成的程序。話音合成裝置13可以用作執(zhí)行基帶信號處理部分21的其它通信處理的CPU。為便于描述,話音合成裝置13表示為話音合成部分的一個組成部分。
圖3是用于解釋話音內容標識符的圖并表示多個標識符和利用這些際識符表示的話音內容的相關表。在此圖中,分別定義用于標識符“ID-1”、“ID-2”、“ID-3”和“ID-4”的表示對應于標識符“ID-1”、“ID-2”、“ID-3”以及“ID-4”的話音內容的類型的“通知郵件到達的消息”、“通知呼叫的消息”“通知發(fā)送方姓名的消息”以及“通知報警信息的消息”。
對于標識符“ID-4”,語音格式詞典生成器5或10能準備用于“通知報警信息的消息”的任意語音格式詞典。圖3所示的關系并不保密并且作為文件(話音內容管理數據表)對公眾是公開的。不用說,這種關系可作為電子數據在計算機或網絡上公開。
圖4與5表示作為不同的語音格式的示例根據標識符在標準語言和Ohsaka方言中待合成的語句。圖4表示將進行話音合成的語句,其語音格式為標準語言(以下稱為“標準模式”)。圖5表示將進行合成的語句,其語音格式為Ohsaka方言(以下稱為Ohsaka方言)。例如,對于標識符“ID-1”,將進行話音合成的語句在標準模式中表示為“meiru ga chakusin simasita”(這在英文中表示“郵件已到達”),而在Ohsaka方言中則表示為“meiru ga kitemasse”(這在英文中也表示“郵件已到達”)。這些措詞可根據需要利用生成語音格式詞典的生成器來定義并且不限于這些示例中的措詞。例如,對于Ohsaka方言中的標識符“ID-1”,將進行話音合成的語句可以是“kimasita,kimasita,meiru desse!”(這在英文中表示“已到達,已到達,這是郵件!”)。可選擇地,如圖5中的標識符“ID-4”那樣,立體聲類型語句可以具有可以替代的部分(如利用O的字符所示)。
這樣的數據在讀出不能一成不變地準備的諸如發(fā)送者信息的信息時是有效的。讀出立體聲類型語句的方法可利用公開在“利用字詞和語句韻律數據庫對韻律進行控制”(1998年日本聲學學會會刊第227-228頁)中的技術。
圖6是表示根據一個實施例的語音格式詞典的數據結構的圖。該數據結構存儲在圖2所示的語音格式詞典存儲器14中。語音格式詞典包括識別語音格式的語音信息402、索引表403以及與相應標識符對應的韻律數據404至407。語音信息402登記語音格式詞典14的語音格式類型,例如“標準模式”或“Ohsaka方言”。對于系統(tǒng)是共用的特征標識符可添加到語音格式詞典14中。當在終端設備7上選擇語音格式時,語音信息402變?yōu)殛P鍵信息。存儲在索引表403中的是表示對應于每一個標識符的語音格式詞典開頭的頂部地址的數據。與所述標識符對應的語音格式詞典應在終端設備上進行搜索,并且通過利用索引表403對語音格式詞典的位置進行管理,就有可能獲得快速搜索。在韻律數據404至407設置為具有固定長度并且逐一進行搜索的情況中,可能不需要索引表403。
圖7表示對應于圖6所示的相應標識符的韻律數據404至407的數據結構。該數據結構存儲在圖2所示的韻律參數存儲器15中。韻律數據501由識別語音格式的語音信息502和話音元素表503組成。韻律數據的話音內容標識符在語音信息502中進行描述。例如,在“ID-4”和“OO no jikan ni narimasita”的示例中,“ID-4”在語音信息502中進行描述。話音元素表503包括話音合成器驅動數據或者說由待進行話音合成的語句的發(fā)音符號,各個話音元素的持續(xù)時間以及話音元素的強度組成的韻律數據。
圖8表示對應于“meiru ga kitemasse”或對應于Ohsaka方言的語音格式詞典中的標識符“ID-1”的要進行話音合成的語句的話音元素表的一個示例。話音元素表601包括發(fā)音符號數據602、每一個話音元素的持續(xù)時間數據603以及每一個話音元素的強度數據604。盡管每一個話音元素的持續(xù)時間是用毫秒表示的,但不局限于這一單位,而可以利用能表示持續(xù)時間的任何物理數量來表示。同樣,利用赫茲(Hz)表示的每一個話音元素的強度也不限于這一單位,而可以以能表示強度的任何物理數量來表示。
在這個示例中,發(fā)音符號如圖8所示為“m/e/e/r/u/g/a/k/i/t/e/m/a/Q/s/e”。話音元素“r”的持續(xù)時間為39毫秒并且強度為352Hz(605)。發(fā)音符號“Q”606表示阻塞音。
圖9表示根據本發(fā)明的話音合成方法的一個實施例從語音格式的選擇到合成話音聲波的生成的話音合成程序。這一示例表示這種方法的程序,通過這種方法,如圖2所示的終端設備7的用戶選擇“Ohsaka方言”的合成語音格式,并且一個消息在呼叫到來時以合成話音的方式生成。管理表1007存儲電話號碼及有關在呼叫到來時用于確定話音內容的人員姓名的信息。
為了在上述示例中合成聲波,首先,根據從語音格式指示裝置11輸入的語音格式指示信息來轉換語音格式詞典存儲器14中的語音格式詞典(S1)。語音格式詞典1(141)或語音格式詞典2(142)存儲在語音格式詞典存儲器14中。當終端設備7接收到呼叫時,話音內容標識符輸入裝置12利用標識符“ID-2”確定“通知呼叫的消息”的合成,以便將用于標識符“ID-2”的韻律數據設置為合成目標(S2)。接下來,確定要生成的韻律數據(S3)。在這一示例中,此語句中沒有根據需要替換的字詞,不執(zhí)行特定處理。然而,在使用例如圖5所示的“ID-3”話音內容的情況下,從(在圖2所示的基帶信號處理部分21中提供的)管理表1007中獲得呼叫者的姓名信息,并確定韻律數據“suzukisan karayadee”。
在以上述方式確定韻律數據之后,計算如圖8所示的話音元素表(S4)。為了在此示例中利用“ID-2”來合成聲波,只需要將存儲在語音格式詞典存儲器14中的韻律數據傳送給韻律參數存儲器15。
但是,在使用例如圖5所示的“ID-3”的話音內容的情況下,呼叫者的姓名信息從管理表1007中獲得,并確定韻律數據“suzukisan karayadee”。計算用于“suzuki”部分的韻律參數,并將這些參數傳送到韻律參數存儲器15。用于“suzuki”部分的韻律參數的計算可利用公開在“利用字詞和語句韻律數據庫對韻律進行控制”(1998年日本聲學學會會刊第227-228頁)中的方法來實現。
最后,話音合成器13從韻律參數存儲器15中讀出韻律參數,將這些韻律參數轉換為合成的聲波數據,并將此數據存儲在合成聲波存儲器16中(S5)。合成聲波存儲器16中的合成聲波數據通過話音輸出部分或電聲轉換器17作為合成話音順序輸出。
圖10與11是均表示在指示合成話音的語音格式時裝配有本發(fā)明的話音合成器的便攜式終端設備的顯示情況的圖。終端設備用戶8選擇便攜式終端設備7顯示器71上的“SET UP SYNTHESIS SPEECH STYLE(建立合成語音格式)”菜單。在圖10A中,“SET UP SYNTHESIS SPEECH STYLE”菜單71a在與“SET UP ALARM(建立告警)”和“SET UP SOUND INDICATING RECEIVING(建立表示接收的聲音)”相同的層上完成。只要實現建立合成語音格式的功能,“SET UP SYNTHESISSPEECH STYLE”菜單71a就不必在同一層上,而可以利用另一方法來得到。在選擇“SET UP SYNTHESIS SPEECH STYLE”菜單71a之后,寄存在便攜式終端設備7中的合成話音格式如圖10B所示顯示在顯示器71上。顯示的字符串就是存儲在圖6所示的語音信息402中的字符串。語音格式詞典包括以生成利用擬人化老鼠生成的話音的方式準備的數據,例如“nezumide chu”(這在英文中表示“這是一只老鼠”)。當然,可以使用表示選擇的語音格式詞典特征的任何字符串。例如,在終端設備用戶8打算以“Ohsaka方言”合成話音的情況下,高亮度顯示“OHSAKA DIALECT”71b,以選擇相應的合成語音格式。語音格式詞典并不限于日語,而可以提供英語或法語語音格式詞典,或英語或法語發(fā)音符號可存儲在語音格式詞典中。
圖11表示便攜式終端設備的顯示部分來解釋允許圖1所示的終端設備用戶8通過通信網絡3獲得語音格式詞典的方法的圖。當便攜式終端設備7通過通信網絡3連接到信息管理服務器時,給出所示的顯示。圖11A表示便攜式終端設備7連接到語音格式詞典分配服務后的顯示情況。
首先,為終端設備用戶8提供用于檢驗是否獲得合成語音格式數據的顯示71。當選擇表示同意的“OK”71c時,顯示71轉換為(b),并將寄存在信息管理服務器中的語音格式詞典的目錄顯示出來。老鼠“nezumide chu”的模擬話音使用的語音格式詞典、用于“Ohsaka方言”的消息的語音格式詞典等都寄存在此服務器中。
接下來,終端設備用戶8將高亮度的顯示轉向將要獲得的語音格式數據,并按下同意(OK)按鈕。信息管理服務器1將與請求的語音格式相對應的語音格式詞典發(fā)送給通信網絡3。在傳送結束后,完成語音格式詞典的發(fā)送和接收。利用上述程序,未安裝在終端設備7中的語音格式詞典存儲在終端設備7中。盡管上述方法通過接入通信公司提供的服務器獲得數據,但不是通信公司的第三方5當然可以接入語音格式存儲服務器4來獲得數據。
本發(fā)明能保證能以任何一種語音格式讀出立體聲類型信息的便攜式終端設備的容易開發(fā)。
各種其它修改對于本領域技術人員來說將容易實施而不違背本發(fā)明的范疇與精神。因此,上面的描述和說明不應認為限制利用附加的權利要求書來定義的本發(fā)明的范圍。
權利要求
1.利用話音合成將立體聲類型語句轉換為話音的一種話音合成方法,包括以下步驟確定話音內容標識符來指示所述立體聲類型語句的話音內容的類型;準備語音格式詞典,此詞典包括與上述話音內容標識符相對應的語音格式和韻律數據;通過指示用于待生成的合成話音的內容標識符和語音格式從所述語音格式詞典中選擇要生成的所述合成話音的韻律數據;將所述選擇的韻律數據作為話音合成器驅動數據添加到話音合成裝置,從而利用特定的語音格式來執(zhí)行話音合成。
2.根據權利要求1的話音合成方法,其中所述韻律數據至少包括一個發(fā)音符號序列以及構成所述發(fā)音符號序列的每個話音元素的持續(xù)時間、強度和功率方面的信息,這些發(fā)音符號是一些話音元素,將所述立體聲類型語句的所述話音內容分解為這些話音元素。
3.一種話音合成器,用于通過將立體聲類型語句轉換為韻律數據并將所述韻律數據作為話音合成器驅動數據添加到話音合成部分來執(zhí)行話音合成,包括話音內容標識符,用于指示所述立體聲語句的話音內容的類型;存儲器,用于存儲語音格式詞典,其中指示用于合成話音的語音格式的語音格式指示信息與韻律數據相互相關;指示裝置,用于指示話音內容標識符和在話音合成時待合成的話音的語音格式;所述話音合成部分用于從所述語音格式詞典中選擇所述指示裝置指示的所述韻律數據,并將所述韻律數據轉換為話音信號。
4.根據權利要求3的話音合成器,其中所述韻律數據至少包括一個發(fā)音符號序列以及構成所述發(fā)音符號序列的每一個話音元素的持續(xù)時間、強度和功率方面的信息,這些發(fā)音符號是所述立體聲類型語句的所述發(fā)音內容分解成的話音元素。
5.一種蜂窩電話機,具有如權利要求3所述的話音合成器。
6.一種韻律數據分配方法,通過將立體聲類型語句轉換為韻律數據并將所述韻律數據作為話音合成器驅動數據添加到終端設備的話音合成部分中來執(zhí)行話音合成,此方法包括以下步驟決定話音內容標識符來指示所述立體聲類型語句的話音內容的類型;準備包括對應于所述話音內容標識符的語音格式和韻律數據的語音格式詞典;將所述語音格式詞典提供給通信網絡中配備的服務器,或提供給通過所述服務器連接的終端設備。
7.根據權利要求6的韻律數據分配方法,其中所述韻律數據至少包括一個發(fā)音符號序列以及構成所述發(fā)音符號序列的每一個話音元素的持續(xù)時間、強度和功率方面的信息,這些發(fā)音符號是所述立體聲類型語句的所述話音內容分解而成的話音元素。
8.根據權利要求6的韻律數據分配方法,其中在將所述語音格式詞典提供給通過所述通信網絡中配備的所述服務器連接的終端設備的情況下,所述終端設備包括以下裝置用于指示語音格式詞典的裝置,該語音格式詞典對應于由終端設備用戶指示的語音格式;數據傳送裝置,用于將所述指示的語音格式詞典從所述服務器傳送到所述終端設備;和語音格式詞典存儲裝置,用于將所述傳送的語音格式詞典存儲到所述終端設備中的語音格式詞典存儲器內,以便利用所述終端設備用戶指示的所述語音格式來完成語音合成。
9.根據權利要求7的韻律數據分配方法,其中所述語音格式詞典的準備通過查閱對公眾是公開的用于合成的內容的管理目錄來生成韻律數據。
全文摘要
公開一種方法,將立體聲類型語句合成為任意語音格式的話音,并允許第三方準備韻律數據和允許具有話音合成部分的終端設備的用戶獲得韻律數據。此話音合成方法確定話音內容標識符來指示立體聲類型語句的話音內容的類型;準備包括與話音內容標識符相對應的語音格式和韻律數據的語音格式詞典14;通過指示(12)用于要生成(15)的合成話音的內容標識符和語音格式從語音格式詞典14中選擇要生成的合成話音的韻律數據,并將選擇的韻律數據作為話音合成器驅動數據添加到話音合成器13,從而利用特定的語音格式來執(zhí)行話音合成。立體聲類型語句的話音可以利用任意語音格式來合成。由第三方準備的韻律數據(語音格式詞典)可通過網絡載入到便攜式終端設備的話音合成器中。
文檔編號G10L13/08GK1391209SQ0114128
公開日2003年1月15日 申請日期2001年8月3日 優(yōu)先權日2001年6月11日
發(fā)明者額賀信尾, 永松健司, 北原義典 申請人:株式會社日立制作所