亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用可變長子字的語音合成系統(tǒng)和方法

文檔序號:2822162閱讀:297來源:國知局
專利名稱:利用可變長子字的語音合成系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及一種利用一個相對較小的聲音目錄實現(xiàn)語音合成的方法和系統(tǒng)。本發(fā)明特別適用于,但不僅限于,例如移動電話和個人數(shù)字助理等的手持裝置的語音合成。
背景技術(shù)
熟知的復(fù)雜的語音合成技術(shù)使用的是一種聯(lián)接的方法。該技術(shù)使用的是存儲在發(fā)音數(shù)據(jù)庫中的講話發(fā)音的實際記錄。發(fā)音的各個部分經(jīng)重新組合或聯(lián)接,來生成各種口語短語。被重新組合的部分可以包括完整的詞語,詞語段或者甚至是單個音節(jié)的更小分段。當(dāng)較大的詞語段被聯(lián)接時,所得到的合成語音聽起來要更為自然一些。然而,當(dāng)使用較大的詞語段時,就需要大容量的存儲器來存放聲音數(shù)據(jù),才能夠維持一個可以合成相當(dāng)大詞匯量的聲音數(shù)據(jù)庫。
可以通過僅僅存儲較小的段,例如雙音素或者單音,來減小這種聲音數(shù)據(jù)庫的大?。蝗欢纱说玫降暮铣烧Z音的質(zhì)量也通常會降低。這是因為形成正確的音調(diào)和非常短的語音段之間過渡時間長度,從而產(chǎn)生自然發(fā)聲的語音是困難的。存在復(fù)雜的技術(shù)分析小的音素鏈單元,例如CV和VCV(在此C代表輔音,V代表元音)。然而實現(xiàn)該技術(shù)的算法將會非常復(fù)雜和需要加強處理器。
其他用于減小與語音合成系統(tǒng)相關(guān)的聲音數(shù)據(jù)庫大小的方法包括使用稱為共振峰合成法的技術(shù)。使用共振峰合成法,由于人的聲音只使用濾波的電子激勵信號進(jìn)行模擬,就可以不再需要聲音數(shù)據(jù)庫。然而得到的合成語音通常聽起來極為不自然和“機器腔”。
移動電話和個人數(shù)字助理(PDA)等手持式電子裝置的流行,增加了對高質(zhì)量的語音合成器的需求。如果這種手持裝置裝內(nèi)置有語音合成器,其方便性將大大增加。例如,電子郵件和文本信息,例如SMS信息,可以合成為語音由移動電話的用戶來接聽。然而,這種手持電子裝置的存儲與處理資源通常非常有限。所以內(nèi)置于這種裝置中的語音合成器件必須使用壓縮和高效率的聲音數(shù)據(jù)庫。
因此,就需要一種改進(jìn)的語音合成的方法和系統(tǒng),使用壓縮的聲音數(shù)據(jù)庫同時仍可提供自然聲語音。
發(fā)明概述根據(jù)本發(fā)明的一方面,本發(fā)明是一種語音合成的方法,包括接收輸入的文本串;將所述輸入文本串與索引的聲音目錄進(jìn)行比較;從所述聲音目錄中檢索出與所述輸入文本串相一致的完整子字波形;從所述聲音目錄中檢索出與所述輸入文本串相一致的音素串波形;從所述聲音目錄中檢索出與所述輸入文本串相一致的單個音素波形;聯(lián)接所述波形,產(chǎn)生與所述輸入文本串相一致的合成語音。
本發(fā)明優(yōu)選的可以包括通過對大文本語料庫實施一個統(tǒng)計分析來決定常用詞,并將所述常用詞劃分成位置音節(jié),產(chǎn)生所述聲音目錄的步驟。
生成所述的聲音目錄的步驟可以進(jìn)一步包括對所述位置音節(jié)進(jìn)行歸類的音節(jié)歸類步驟,和舍棄具有低清晰度的所述音節(jié)的步驟。
生成所述聲音目錄的步驟可以進(jìn)一步包括計算所述大文本語料庫中的CV型子字的頻率,和選擇所述大文本語料庫中最常見部分的所述子字的步驟。
聯(lián)接所述波形的步驟可以包括硬聯(lián)接(幾乎不需要信號處理的聯(lián)接)所述子字波形,或可以包括對所述音節(jié)串波形和所述單個音節(jié)波形的修正聯(lián)接的步驟。
修正聯(lián)接優(yōu)選的包括改變所述聯(lián)接波形的持續(xù)時間。
根據(jù)本發(fā)明的另一方面,本發(fā)明是一種根據(jù)輸入語音進(jìn)行語音合成的系統(tǒng),它包括具有子字波形的聲音目錄。一多級聲音單元選擇器與所述的聲音目錄聯(lián)接,一多層合成器與所述的聲音單元選擇器聯(lián)接。根據(jù)所述輸入文本的分段是否與所述聲音目錄中的子字波形相一致,選擇所述的音調(diào)單元選擇器的一級。
所述的多層合成器優(yōu)選的包括用于執(zhí)行硬聯(lián)接的第一層和用于執(zhí)行修正聯(lián)接的第二層。
所述聲音目錄可以包括CV型子字波形,并且所述的CV型子字波形可以用一注釋文件標(biāo)引。
所述多級聲音單元選擇器優(yōu)選的包括可與所述多層合成器的第一層聯(lián)接以實現(xiàn)硬聯(lián)接的第一級,和可與所述多層合成器的第二層聯(lián)接以實現(xiàn)修正聯(lián)接的第二級和第三級。
在本說明書,以及權(quán)利要求書中,詞語“包含”,“包括”或者類似術(shù)語意在表示非派他性的包括,所以,包括所列出的元件的方法和裝置,并不僅僅是包括這些元件,還可以包括沒有提到的其它元件。


為使本發(fā)明易于理解并付諸實施,現(xiàn)在將參照附圖對優(yōu)選實施例進(jìn)行說明,在圖中,相同的標(biāo)號表示相同的元件,其中圖1是根據(jù)本發(fā)明的語音合成系統(tǒng)的功能性組件的示意圖;圖2是根據(jù)本發(fā)明的如何生成一個聲音目錄的流程圖;和圖3是根據(jù)本發(fā)明的語音合成方法的流程圖。
優(yōu)選實施例的詳細(xì)說明參見圖1,圖中所示為根據(jù)本發(fā)明的用于語音合成的系統(tǒng)100的功能性組件的示意圖。聲音目錄110包括多個子字組件120,例如起始、輔音結(jié)尾和CV型子字。利用索引130對子字組件120進(jìn)行分類。
聲音目錄110與多層單元選擇器140接口。單元選擇器140決定三級中的哪一級將被用來合成輸入到系統(tǒng)100中的詞。當(dāng)輸入文本串的分段可以被劃分為與其對應(yīng)的波形都包含在聲音目錄110中的子字時,選擇單元選擇器140的第一級。當(dāng)合成輸入文本串分段所需要的子字不包括在聲音目錄110中,但是聲音目錄110中的音素串可以用來合成輸入文本串分段時,選擇單元選擇器140的第二級。最后,當(dāng)只能用包括在聲音目錄110中的單個音素來合成輸入文本串的分段時,選擇單元選擇器140的第三級。
單元選擇器140與雙層合成器150接口,合成器150合成由系統(tǒng)100輸出的語音。第一層160對來自單元選擇器140的第一級的子字的執(zhí)行硬聯(lián)接合成。合成器150的第二層170對從單元選擇器140的第二級或者第三級接收的語音組件執(zhí)行修正聯(lián)接合成。在本說明的后面將對硬聯(lián)接和修正聯(lián)接進(jìn)行詳述。圖1中的虛線箭頭表示從單元選擇器140的第二級或者第三級接收到的語音組件也可以使用硬聯(lián)接進(jìn)行聯(lián)接。
參見圖2,圖中所示為生成聲音目錄110的方法200的流程圖。在步驟205中,對大文本語料庫進(jìn)行統(tǒng)計分析。該分析包括計算在任意給定的示例性輸入文本的詞語中占顯著多數(shù)的詞語。對大多數(shù)的西方語音而言,例如英語,有超過150,000個單詞,包含至少41,000個位置音節(jié)。然后,在步驟210中,來自步驟205的常用詞被劃分為位置音節(jié)。位置音節(jié)定義為具有詞語位置標(biāo)記的音節(jié),如下Ws單音節(jié)詞語中的音節(jié);Wo多音節(jié)詞語中的音節(jié)但不包括詞的最后一個音節(jié);和Wf多音節(jié)詞語中的最后一個音節(jié)。
然后,方法200繼續(xù)到步驟215,在此,每一音節(jié)中的音素都被分類。音素大致可以分為如下四類輔音、半元音、元音和濁音尾。各類之間的清晰度是不同的。于是在步驟220中,具有低清晰度的音素可以被舍棄。因此,根據(jù)本發(fā)明的語音單元的定義是基于音節(jié)的,并且語音單元的長度從一個音節(jié)到四個或者更多音節(jié)變化。這就意味著下面的組合可以從聲音目錄110中省略輔音到輔音、元音到輔音、半元音到輔音、和鼻尾音到輔音。然而,下面的組合在語音單元的聯(lián)接中要考慮輔音到元音、半元音到元音、元音到半元音。輔音串結(jié)尾可以被不同的詞語共用。因此,上面所述的超過41,000個位置音節(jié)減少為只有16,000個CV型子字。下面的表1提供一個例子,說明如何使用上述子字單元來描述,例如“Battery level is low”中的音節(jié)轉(zhuǎn)換表1“Battery level is low”中的音節(jié)轉(zhuǎn)換

然后,方法200繼續(xù)到步驟225,其中根據(jù)詞典(根據(jù)本發(fā)明的優(yōu)選實施例包括超過190,000個詞條)中的單詞頻率和單元頻率來計算CV型子字的頻率。英語文本的統(tǒng)計分析顯示,大約6,900個詞語能覆蓋大約90%的輸入文本,而大約4,100個詞語能覆蓋大約85%的輸入文本,每一子字出現(xiàn)的頻率或者次數(shù)定義如下ni=n1i+n2i其中ni為第i個子字出現(xiàn)次數(shù),其中n1i是帶有第i個子字的詞語出現(xiàn)的次數(shù),其中n2i是第i個子字在詞典中出現(xiàn)的次數(shù)。對于ni,i=1,2,....,N(其中N是字典中子字的數(shù)目),可以計算出每一個子字的頻率。
最后在步驟230中,選擇將覆蓋預(yù)期輸入文本大部分的最常用的子字。當(dāng)實施于英語時,上面計算的結(jié)果顯示20%的子字將覆蓋超過85%的英語文本。因此,大約2,400個子字被選擇構(gòu)成語音單元目錄。從聲音語料庫中提取與每一子字相關(guān)的語音波形,形成聲音目錄110。上述方法200從而大大減少了聲音目錄110中的冗余。
聲音目錄110中每一個子字的相關(guān)語音波形都用索引130標(biāo)引。索引130可以包括一個與記錄的語音波形一起的簡單注釋文件。因此,索引130被用于標(biāo)識包含在子字波形中的音素串和單個音素。
參見圖3,圖中所示為根據(jù)本發(fā)明的語音合成方法300的流程圖。方法300在起始步驟305被調(diào)用,例如;當(dāng)手持裝置的用戶接收到一個文本信息并想將其合成為語音時。在步驟310中,語音合成系統(tǒng)100接收一個輸入文本串,例如是前面提到的文本信息。在步驟315中,實施對輸入文本串的預(yù)處理。預(yù)處理將輸入文本串分類成包括與每一段相關(guān)的位置信息的子字段。然后,在步驟320,將輸入文本串分段與聲音目錄110進(jìn)行比較。在步驟325,確定聲音目錄110中的完整子字波形是否與輸入文本串的當(dāng)前段一致。如果是,方法300執(zhí)行步驟330,從聲音目錄110檢索出一致的子字波形。接下來在步驟360中,子字波形被聯(lián)接。步驟330和步驟360與單元選擇器140的第一級相關(guān),子字的聯(lián)接由雙層合成器150的第一層160執(zhí)行硬聯(lián)接。硬聯(lián)接將在下文中詳述。接下來在步驟335中,確定輸入文本串是否還有其它段要與聲音目錄110進(jìn)行比較。如果還有,方法300重新返回到步驟320,在此,輸入文本串的下一段與聲音目錄110進(jìn)行比較;否則,方法300在步驟340結(jié)束。
如果在步驟325確定聲音目錄110中沒有與輸入文本串的當(dāng)前段一致的完整子字波形,則方法300前進(jìn)到步驟345,以判斷在聲音目錄110中是否有與輸入文本串的當(dāng)前段一致的多個音素串波形。如果有,方法300進(jìn)行到步驟350,從聲音目錄110中檢索出一致的多個音素串波形。接下來在步驟365中,多音子串波形得以聯(lián)接。步驟350和步驟365與單元選擇器140的第二級相關(guān),并且多個音素串的聯(lián)接是由合成器150的第二層170來執(zhí)行的修正聯(lián)接。修正聯(lián)接也在下文中詳述。接著,方法300返回到步驟335,判斷輸入本文串是否還有其他段要與聲音目錄110進(jìn)行比較。
如果在步驟345判定在聲音目錄110中沒有多個音素串波形與輸入文本串的當(dāng)前段相一致,方法300就前進(jìn)到355步驟,從聲音目錄110中檢索出單個音素波形。然后在步驟365,單個音素波形被聯(lián)接以與輸入文本串的當(dāng)前段最相應(yīng)。這里,步驟355和步驟365與單元選擇器140的第三級相關(guān),單個音素的聯(lián)接還是由合成器150的第二層170來完成的修正聯(lián)接。然后,方法300返回到步驟335,判斷輸入本文串是否還有其他分段要與聲音目錄110進(jìn)行比較。當(dāng)輸入文本串的所有分段都與標(biāo)引的聲音目錄110比較完成后,方法300在步驟340結(jié)束。
因此,根據(jù)本發(fā)明的方法300,基于對輸入文本串的分段進(jìn)行“最適合”的分析,聯(lián)接來自聲音目錄110中的波形。雙層合成器150的第一層執(zhí)行硬聯(lián)接意味著在沒有修正的情況下,將從聲音目錄110中的多個波形簡單的拼接在一起。當(dāng)聯(lián)接的波形足夠大,以至于聯(lián)接波形的總共持續(xù)時間與相應(yīng)的輸入文本串分段的自然說話的持續(xù)時間非常接近時,這個過程會導(dǎo)致聽起來自然的語音。
另一方面,當(dāng)硬聯(lián)接不能得到聽起來自然的語音時,就要使用修正聯(lián)接。合成器150的第二層170執(zhí)行修正聯(lián)接。這里調(diào)整聯(lián)接波形的持續(xù)時間以得到聽起來更為自然的語音。
參照下面的表2,可以更好的理解修正聯(lián)接。
表2

表2中給出了十種不同的情況的范例,其中聲音目錄110的子字組件120被劃分為左邊和右邊文本。在表2的最右邊的列描述的是當(dāng)聯(lián)接子字組件120,產(chǎn)生聽起來自然的合成語音時,所需要的聯(lián)接類型。例如,表2中的情況2說明當(dāng)使用修正聯(lián)接來聯(lián)接聲音目錄110的兩個元音波形時,聯(lián)接波形的持續(xù)時間必須減少25%才能得到聽起來自然的語音。
作為選擇,表2中的情況9說明當(dāng)聯(lián)接由一個元音和一個輔音組成的兩個波形時,聯(lián)接波形的持續(xù)時間不必修正。因此,合成器150的第一層160將執(zhí)行這種硬聯(lián)接。
因此,本發(fā)明為一種使用相對較小的聲音目錄110的用于語音合成的改進(jìn)的方法和系統(tǒng)。適當(dāng)組建聲音目錄110可以得到波形的標(biāo)引集,它能通過硬聯(lián)接而合成大約85%的輸入文本串。輸入文本串其余的15%可以利用所述的修正聯(lián)接技術(shù)而得以合成。聲音目錄110因此是高度壓縮的而且具有最小冗余波形,使得它特別適用于具有有限存儲器的手持裝置中。而且,聲音目錄110大小的縮減使得本發(fā)明的檢索算法更高效快捷。
上述詳細(xì)描述提供的僅是一個優(yōu)選的實施例,并非是對本發(fā)明的范圍、使用性和結(jié)構(gòu)的限制。相反,優(yōu)選示范實施例的詳細(xì)描述為本領(lǐng)域的熟練技術(shù)人員實施本發(fā)明的優(yōu)選示范實施例提供可能。應(yīng)該理解的是,在不脫離所附權(quán)利要求中的本發(fā)明的精神和范圍的情況下,可以對元件和步驟的功能和布置作出各種修改。
權(quán)利要求
1.一種語音合成方法,包括接收輸入文本串;將所述輸入文本串與索引的聲音目錄進(jìn)行比較;從所述聲音目錄中檢索出與所述輸入文本串相應(yīng)的完整子字波形;從所述聲音目錄中檢索出與所述輸入文本串相應(yīng)的音素串波形;從所述聲音目錄中檢索出與所述輸入文本串相應(yīng)的單個音素波形;和聯(lián)接所述波形,以提供與所述輸入文本串相應(yīng)的合成語音。
2.根據(jù)權(quán)利要求1的方法,還包括通過如下步驟生成所述聲音目錄的步驟對大文本語料庫實施一個統(tǒng)計分析來決定常用詞,和將所述常用詞劃分成位置音節(jié)。
3.根據(jù)權(quán)利要求2的方法,其中所述產(chǎn)生所述聲音目錄的步驟還包括以下步驟將來自所述位置音節(jié)的音素歸類;和舍棄具有低清晰度的所述音素。
4.根據(jù)權(quán)利要求2的方法,其中所述產(chǎn)生所述聲音目錄的步驟還包括以下步驟計算CV型子字在所述大文本語料庫中的頻率;和選擇在所述的大文本語料庫中最常用的所述子字。
5.根據(jù)權(quán)利要求1的方法,其中所述聯(lián)接所述波形的步驟包括硬聯(lián)接所述子字波形。
6.根據(jù)權(quán)利要求1的方法,其中所述聯(lián)接所述波形的步驟包括修正聯(lián)接所述音素串波形和所述單個音素波形。
7.根據(jù)權(quán)利要求6的方法,其中所述修正聯(lián)接包括改變所述聯(lián)接波形的持續(xù)時間。
8.一種用于根據(jù)輸入文本進(jìn)行語音合成的系統(tǒng),包括一個包含子字波形的聲音目錄;一個多級聲音單元選擇器,能與所述聲音目錄連接;和一個多層合成器,能與所述聲音單元選擇器連接,其中根據(jù)所述輸入文本的分段是否與所述聲音目錄中的子字波形相關(guān),選擇所述的音調(diào)單元選擇器的一級。
9.根據(jù)權(quán)利要求8的系統(tǒng),其中所述多層合成器包括用于執(zhí)行硬聯(lián)接的第一層和用于執(zhí)行修正聯(lián)接的第二層。
10.根據(jù)權(quán)利要求8的系統(tǒng),其中所述聲音目錄包含CV型子字波形。
11.根據(jù)權(quán)利要求10的系統(tǒng),其中利用注釋文件標(biāo)引所述CV型子字波形。
12.根據(jù)利要求8的系統(tǒng),其中所述多級聲音單元選擇器包括第一級,能與所述多層合成器的第一層連接,用于執(zhí)行硬聯(lián)接;和第二級和第三級,能與所述多層合成器的第二層連接,用于執(zhí)行修正聯(lián)接。
全文摘要
利用可變長度的子字,從輸入文本合成語音的系統(tǒng)和方法。該系統(tǒng)包括一含有子字波形的聲音目錄(110)。多級聲音單元選擇器(140)與聲音目錄(110)連接,多層合成器(150)與聲音單元選擇器(140)連接。根據(jù)所述輸入文本段是否與所述聲音目錄(110)中的子字波形相關(guān),選擇聲音單元選擇器(140)的一個級。該方法包括接收輸入文本串;將輸入文本串與索引的聲音目錄進(jìn)行比較;從所述聲音目錄中檢索出與所述輸入文本串相應(yīng)的完整子字波形;從所述聲音目錄中檢索出與所述輸入文本串相應(yīng)的音素串波形;從所述聲音目錄中檢索出與所述輸入文本串相應(yīng)的單個音素波形;聯(lián)接所述波形,產(chǎn)生與所述輸入文本串相應(yīng)的合成語音。
文檔編號G10L13/00GK1604185SQ03164848
公開日2005年4月6日 申請日期2003年9月29日 優(yōu)先權(quán)日2003年9月29日
發(fā)明者祖漪清, 陳桂林, 俞振利, 岳東劍 申請人:摩托羅拉公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1