用于將文本轉(zhuǎn)換成語音的方法和系統(tǒng)的制作方法

文檔序號：2823969閱讀：280來源：國知局

專利名稱：用于將文本轉(zhuǎn)換成語音的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息技術(shù)領(lǐng)域，更具體地，本發(fā)明涉及用于將文本轉(zhuǎn)換成語音的方法和系統(tǒng)。
背景技術(shù)：
直到現(xiàn)在，LVCSR(大詞匯量連續(xù)語音識別)和NLU(自然語言處理)仍然不能滿足現(xiàn)實生活中人機語音通信的正確性和性能要求。因此，在支持語音的應(yīng)用中，例如在基于Web頁面的語音控制應(yīng)用中，如果數(shù)據(jù)源內(nèi)容發(fā)生了變化，必須根據(jù)數(shù)據(jù)源內(nèi)容動態(tài)地產(chǎn)生語法。在語音識別過程中，如何降低計算復雜度，提高識別效率，是一個需要面對的問題。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面，提出了一種將文本轉(zhuǎn)換成語音的方法，包括對以文本形式的數(shù)據(jù)源進行解析，以獲得數(shù)據(jù)源的部分詞條列表；對各個部分詞條列表分別進行編譯，以獲得與各個部分詞條列表相對應(yīng)的各個音素圖；對獲得的各個音素圖進行合并；以及根據(jù)合并結(jié)果，進行語音識別。根據(jù)本發(fā)明的第二方面，提出了一種將文本轉(zhuǎn)換成語音的系統(tǒng)，包括數(shù)據(jù)解析器，用于對以文本形式的數(shù)據(jù)源進行解析，以獲得數(shù)據(jù)源的部分詞條列表；一個或多個編譯器，用于對各個部分詞條列表分別進行編譯，以獲得與各個部分詞條列表相對應(yīng)的各個音素圖；合并器，用于對獲得的各個音素圖進行合并；以及語音識別器，用于根據(jù)合并結(jié)果，進行語音識別。根據(jù)本發(fā)明，可以在語音識別過程中降低計算復雜度，提高識別效率。

通過以下結(jié)合附圖的說明，并且隨著對本發(fā)明的更全面了解，本發(fā)明的其他目的和效果將變得更加清楚和易于理解，其中圖1示出了根據(jù)本發(fā)明的第一實施方式的用于將文本轉(zhuǎn)化成語音的系統(tǒng)；圖2示出了根據(jù)本發(fā)明的第二實施方式的用于將文本轉(zhuǎn)化成語音的系統(tǒng)；圖3示出了根據(jù)本發(fā)明的第三實施方式的用于將文本轉(zhuǎn)化成語音的方法的流程圖；圖4示出了根據(jù)本發(fā)明的第四實施方式的用于將文本轉(zhuǎn)化成語音的方法的流程圖；圖5示出了根據(jù)本發(fā)明的將文本轉(zhuǎn)化成語音的具體例子；在所有的上述附圖中，相同的標號表示具有相同、相似或相應(yīng)的特征或功能。
具體實施例方式以下結(jié)合附圖對本發(fā)明的具體實施方式
進行描述。本發(fā)明的基本思想是通過并行地或串行地解析以文本形式的數(shù)據(jù)源，獲得數(shù)據(jù)源的部分詞條列表。然后對各個部分詞條列表分別進行編譯，以獲得與各個部分詞條列表相對應(yīng)的各個音素圖。然后合并獲得的各個音素圖。然后，根據(jù)合并結(jié)果，進行語音識別處理。圖1示出了根據(jù)本發(fā)明的第一實施方式的用于將文本轉(zhuǎn)化成語音的系統(tǒng)。如圖1所示，該系統(tǒng)100包括數(shù)據(jù)解析器110，用于對以文本形式的數(shù)據(jù)源進行解
析，以獲得數(shù)據(jù)源的部分詞條列表；多個編譯器120-1、120-2、120-3.....120-N-1、120-N，
用于對各個部分詞條列表分別進行編譯，以獲得與各個部分詞條列表相對應(yīng)的各個音素圖；合并器130，用于合并獲得的各個音素圖；語音識別器140，用于根據(jù)合并結(jié)果，進行語音識別。本領(lǐng)域的技術(shù)人員應(yīng)當理解，在這里，詞條代表字、詞、短語等常見的語法元素。部分詞條列表是指解析整個數(shù)據(jù)源應(yīng)該得到的詞條列表的一部分。在該第一實施方式中，數(shù)據(jù)解析器110串行地解析所述數(shù)據(jù)源，在獲得數(shù)據(jù)源的一個部分詞條列表后，就調(diào)用一個編譯器(例如編譯器120-1)對該部分詞條列表進行編譯，以獲得一個音素圖，然后繼續(xù)對剩下的數(shù)據(jù)源進行解析，以獲得下一個部分詞條列表。在該第一實施方式中，還包括判斷器160，用于判斷合并結(jié)果是否有足夠的信息可以進行語音識別。其中如果有足夠的信息，例如，如果有完整的一個句子，語音識別器140 就開始進行語音識別。在該第一實施方式中，在合并器130完成獲得的各個音素圖的合并之前，在當前數(shù)據(jù)源發(fā)生了變化的情況下，合并器130繼續(xù)進行對獲得的各個音素圖的合并，并緩存合并結(jié)果。在該第一實施方式中，還可以包括優(yōu)化器150，用于對合并結(jié)果進行優(yōu)化。例如，優(yōu)化器150對合并結(jié)果中相同的節(jié)點進行合并，如下面所描述的。在該第一實施方式中，編譯器120-1、120-2、120-3、...、120-N-1、120_N 中的每一個編譯器120可以包括語法獲得器1201，用于對部分詞條列表應(yīng)用語法模板，以獲得與部分詞條列表相對應(yīng)的語法；確定器1202，用于確定語法的音素列表；創(chuàng)建器1203，用于根據(jù)所述音素列表，創(chuàng)建相對應(yīng)的音素樹；優(yōu)化器1204，用于對音素樹進行優(yōu)化，以獲得相對應(yīng)
的音素圖。其中，語法模板一般包括描述語法看起來應(yīng)該是怎么樣的內(nèi)容。以下是一個語法模板的例子〈rule ID> =fford_sequence_lfford_sequence_2.....fford_sequence_N ；fford_sequence_l = word_lword_2word_3 ；fford_sequence_2 = word_lword_3word_2 ；...
Word—sequence—N = word—lword—4word—2 ；而語法具體地描述了部分詞條列表中的內(nèi)容，例如，該部分詞條列表中的內(nèi)容是英文還是中文，是英文的情況下是美國英文還是英國英文等等。以下是一個部分詞條列表的語法的例子#ABNF 1. 0 IS0-8859-1 ；language en-US ；mode voice ；root$main ；$main = red flagwhite house|yellow flagXXX I XXX0音素列表描述了詞條如何發(fā)音?？梢愿鶕?jù)語法，從音素池中確定音素列表。以下是一個音素列表的例子White :HH W AY TDWhite :ff AY TDHouse :HH Aff SHouse :HH Aff ZYellow :Y EH L OffYellow :Y EH L AXRed :R EH DDFlag :F L AE GD總之，對于本領(lǐng)域的技術(shù)人員來說，是完全能夠理解語法模板、語法、音素列表、音素樹等等術(shù)語的含義的，這里出于簡便的考慮，不對其進行過多地描述。在對音素樹的優(yōu)化過程中，將音素樹中相同的節(jié)點合并，從而獲得音素圖。當然，對于本領(lǐng)域的技術(shù)人員來說，可以理解，在該第一實施方式中，如果編譯器的處理速度足夠快，即在數(shù)據(jù)解析器110向其發(fā)送一個部分詞條列表之時，已經(jīng)完成對該部分詞條列表的前面一個部分詞條列表的編譯，那么可以只需要一個編譯器。另外，本領(lǐng)域的技術(shù)人員可以理解，在編譯器120中，優(yōu)化器不是必須的。圖2示出了根據(jù)本發(fā)明的第二實施方式的用于將文本轉(zhuǎn)化成語音的系統(tǒng)。該系統(tǒng)200與圖1中所示的系統(tǒng)100相比不同之處在于該系統(tǒng)200包括一個分塊器210，用于將數(shù)據(jù)源分塊，以獲得各個數(shù)據(jù)源子塊；以及包括多個數(shù)據(jù)解析器110-1、
110-2、110-3.....110-N-1、110-N,這些數(shù)據(jù)解析器并行地解析各個數(shù)據(jù)源子塊，以獲得各
個數(shù)據(jù)源子塊的部分詞條列表。圖3示出了根據(jù)本發(fā)明的第三實施方式的用于將文本轉(zhuǎn)化成語音的方法的流程圖。如圖3所示，該方法300包括步驟S310，對以文本形式的數(shù)據(jù)源進行解析，以獲得數(shù)據(jù)源的部分詞條列表；步驟S320，對各個部分詞條列表分別進行編譯，以獲得與各個部分詞條列表相對應(yīng)的各個音素圖；步驟S330，對獲得的各個音素圖進行合并；以及步驟 S340，根據(jù)合并結(jié)果，進行語音識別。
在該第三實施方式中，串行地解析所述數(shù)據(jù)源，獲得一個部分詞條列表后，就對該部分詞條列表進行編譯，以獲得一個音素圖，然后繼續(xù)對剩下的數(shù)據(jù)源進行解析，以獲得下一個部分詞條列表。在該第三實施方式中，還包括步驟S360，在完成獲得的各個音素圖的合并之前，判斷合并結(jié)果是否有足夠的信息可以進行語音識別，如果有足夠的信息，例如，如果有完整的一個句子，就開始進行語音識別。在該第三實施方式中，在完成獲得的各個音素圖的合并之前，在當前數(shù)據(jù)源發(fā)生了變化的情況下，繼續(xù)進行對獲得的各個音素圖的合并，并緩存合并結(jié)果。在該第三實施方式中，還可以包括步驟S350 對合并結(jié)果進行優(yōu)化。在該第三實施方式中，對部分詞條列表進行編譯，以獲得與部分詞條列表相對應(yīng)的音素圖的步驟可以包括步驟S3201，對部分詞條列表應(yīng)用語法模板，以獲得與部分詞條列表相對應(yīng)的語法；步驟S3202，確定語法的音素列表；步驟S3203，根據(jù)音素列表，創(chuàng)建相對應(yīng)的音素樹；步驟S3204，對音素樹進行優(yōu)化，以獲得相對應(yīng)的音素圖。當然，本領(lǐng)域的技術(shù)人員可以理解，對音素樹進行優(yōu)化，以獲得相對應(yīng)的音素圖這個步驟不是必須的。圖4示出了根據(jù)本發(fā)明的第四實施方式的用于將文本轉(zhuǎn)化成語音的方法。該方法400與圖3中所示的方法300相比不同之處在于在該方法400中，包括步驟S405，將數(shù)據(jù)源分塊，以獲得各個數(shù)據(jù)源子塊，以及在步驟410，并行地解析各個數(shù)據(jù)源子塊，以獲得各個數(shù)據(jù)源子塊的部分詞條列表。下面根據(jù)一個例子，對本發(fā)明的實施方式進行更具體地描述。數(shù)據(jù)解析器110串行地解析數(shù)據(jù)源，獲得第一部分詞條列表，該第一部分詞條列表包括內(nèi)容Red flag，然后調(diào)用第一編譯器120-1，對該第一部分詞條列表進行編譯，以獲得第一音素圖。在該例子中，第一編譯器120-1獲得的語法如下#ABNF 1. 0 IS0-8859-1 ；language en-US ；mode voice ；root$main ；$main = Red flagXXX I XXX0確定的音素列表如下Red :R EH DDFlag :F L AE GD。創(chuàng)建的音素樹如圖5A所示。由于在該簡單例子中，如圖5A所示的音素樹已經(jīng)最優(yōu)化，因此不需要進行優(yōu)化。并且，由于這是第一個獲得的音素圖，因此此時不發(fā)生合并。另外，這里假定第一音素圖還沒有足夠的信息可以進行語音識別，因此此時也不發(fā)生語音識別。隨著數(shù)據(jù)解析器110繼續(xù)解析剩下的數(shù)據(jù)源，獲得第二部分詞條列表，該第二部分詞條列表包括內(nèi)容White house，然后調(diào)用第二編譯器120_2，對該第二部分詞條列表進
行編譯，以獲得第二音素圖。在該例子中，第二編譯器120-2獲得的語法如下#ABNF 1. 0 IS0-8859-1 ；language en-US ；mode voice ；root$main ；$main = White houseXXX I XXX0確定的音素列表如下White :HH W AY TDWhite :ff AY TDHouse :HH Aff SHouse :HH Aff Z。創(chuàng)建的音素樹如圖5B所示。由于在該簡單例子中，如圖5B所示的音素樹已經(jīng)最優(yōu)化，因此不需要進行優(yōu)化。并且，由于這是第二個獲得的音素圖，此前已經(jīng)獲得了第一音素圖，因此此時發(fā)生合并。合并結(jié)果如圖5C所示。因為第一音素圖和第二音素圖各自都具有根節(jié)點和末端節(jié)點，因此合并音素圖相對比較簡單，即合并第一音素圖和第二音素圖的根節(jié)點和末端節(jié)點。另外，這里假定合并了第一音素圖和第二音素圖的合并結(jié)果已經(jīng)有足夠的信息可以進行語音識別，因此此時發(fā)生語音識別。另外，在該例子中，此時第一音素圖和第二音素圖的合并結(jié)果已經(jīng)是最優(yōu)的，因此此時不發(fā)生對合并結(jié)果進行優(yōu)化。隨著數(shù)據(jù)解析器110繼續(xù)解析剩下的數(shù)據(jù)源，獲得第三部分詞條列表(最后一個)，該第三部分詞條列表包括內(nèi)容如110 flag，然后調(diào)用第三編譯器120-3，對該第三部分詞條列表進行編譯，以獲得第三音素圖。在該例子中，第三編譯器120-3獲得的語法如下#ABNF 1. 0 IS0-8859-1 ；language en-US ；mode voice ；root$main ；$main = Yellow flagXXX I XXX0確定的音素列表如下Yellow :Y EH L OffYellow :Y EH L AXFlag :F L AE GD。創(chuàng)建的音素樹如圖5D所示。由于在該簡單例子中，如圖5D所示的音素樹已經(jīng)最優(yōu)化，因此不需要進行優(yōu)化。
并且，由于這是第三個獲得的音素圖，此前已經(jīng)獲得了第一音素圖和第二音素圖，因此此時發(fā)生合并。合并結(jié)果如圖5E所示。另外，此時第一音素圖、第二音素圖和第三音素圖的合并結(jié)果不是最優(yōu)的，兩個分支上具有相同的節(jié)點F L AE和GD，因此此時對合并結(jié)果進行優(yōu)化。優(yōu)化后的合并結(jié)果如圖 5F所示。另外，如果在合并第三個獲得的音素圖之前，該數(shù)據(jù)源發(fā)生了變化，例如，該數(shù)據(jù)源是一個網(wǎng)頁，并且用戶點擊了該網(wǎng)頁上的鏈接之后，繼續(xù)進行第三個獲得的音素圖的合并，并緩存合并結(jié)果，以當用戶返回上面這個頁面時可以繼續(xù)使用。根據(jù)本發(fā)明，由于每次只需要確定部分詞條列表的音素圖，因此能降低計算復雜度。并且，在完成獲得的各個音素圖的合并之前，一旦合并結(jié)果已經(jīng)有足夠的信息可以進行語音識別，就開始進行語音識別，因此能提高語音識別性能。應(yīng)當注意，為了使本發(fā)明更容易理解，上面的描述省略了對于本領(lǐng)域的技術(shù)人員來說是公知的、并且對于本發(fā)明的實現(xiàn)可能是必需的更具體的一些技術(shù)細節(jié)。提供本發(fā)明的說明書的目的是為了說明和描述，而不是用來窮舉或?qū)⒈景l(fā)明限制為所公開的形式。對本領(lǐng)域的普通技術(shù)人員而言，許多修改和變更都是顯而易見的。因此，選擇并描述實施方式是為了更好地解釋本發(fā)明的原理及其實際應(yīng)用，并使本領(lǐng)域普通技術(shù)人員明白，在不脫離本發(fā)明實質(zhì)的前提下，所有修改和變更均落入由權(quán)利要求所限定的本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種將文本轉(zhuǎn)換成語音的方法，包括步驟對以文本形式的數(shù)據(jù)源進行解析，以獲得數(shù)據(jù)源的部分詞條列表；對各個部分詞條列表分別進行編譯，以獲得與各個部分詞條列表相對應(yīng)的各個音素圖；對獲得的各個音素圖進行合并；以及根據(jù)合并結(jié)果，進行語音識別。
2.根據(jù)權(quán)利要求1所述的方法，進一步包括判斷合并結(jié)果是否有足夠的信息可以進行語音識別；其中，如果有足夠的信息就開始進行語音識別。
3.根據(jù)權(quán)利要求1所述的方法，其中，在當前數(shù)據(jù)源發(fā)生了變化的情況下，繼續(xù)進行對獲得的各個音素圖的合并，并緩存合并結(jié)果。
4.根據(jù)權(quán)利要求1所述的方法，其中對以文本形式的數(shù)據(jù)源進行解析，以獲得數(shù)據(jù)源的部分詞條列表包括將所述數(shù)據(jù)源分塊，以獲得各個數(shù)據(jù)源子塊；并行地解析各個數(shù)據(jù)源子塊，以獲得各個數(shù)據(jù)源子塊的部分詞條列表。
5.根據(jù)權(quán)利要求1所述的方法，其中對以文本形式的數(shù)據(jù)源進行解析，以獲得數(shù)據(jù)源的部分詞條列表包括串行地解析所述數(shù)據(jù)源，以獲得數(shù)據(jù)源的部分詞條列表。
6.根據(jù)權(quán)利要求1所述的方法，還包括步驟對合并結(jié)果進行優(yōu)化。
7.根據(jù)權(quán)利要求1所述的方法，其中對部分詞條列表進行編譯，以獲得與部分詞條列表相對應(yīng)的音素圖包括對部分詞條列表應(yīng)用語法模板，以獲得與部分詞條列表相對應(yīng)的語法；確定所述語法的音素列表；根據(jù)所述音素列表，創(chuàng)建相對應(yīng)的音素樹；對所述音素樹進行優(yōu)化，以獲得相對應(yīng)的音素圖。
8.一種將文本轉(zhuǎn)換成語音的系統(tǒng)，包括數(shù)據(jù)解析器，用于對以文本形式的數(shù)據(jù)源進行解析，以獲得數(shù)據(jù)源的部分詞條列表；一個或多個編譯器，用于對各個部分詞條列表分別進行編譯，以獲得與各個部分詞條列表相對應(yīng)的各個音素圖；合并器，用于對獲得的各個音素圖進行合并；以及語音識別器，用于根據(jù)合并結(jié)果，進行語音識別。
9.根據(jù)權(quán)利要求8所述的系統(tǒng)，還包括判斷器，用于判斷合并結(jié)果是否有足夠的信息可以進行語音識別，其中如果有足夠的信息，語音識別器就開始進行語音識別。
10.根據(jù)權(quán)利要求8所述的系統(tǒng)，其中，在當前數(shù)據(jù)源發(fā)生了變化的情況下，合并器繼續(xù)進行對獲得的各個音素圖的合并，并緩存合并結(jié)果。
11.根據(jù)權(quán)利要求8所述的系統(tǒng)，還包括分塊器，用于將所述數(shù)據(jù)源分塊，以獲得各個數(shù)據(jù)源子塊；其中多個數(shù)據(jù)解析器并行地解析各個數(shù)據(jù)源子塊，以獲得各個數(shù)據(jù)源子塊的部分詞條列表。
12.根據(jù)權(quán)利要求8所述的系統(tǒng)，其中所述數(shù)據(jù)解析器串行地解析所述數(shù)據(jù)源，以獲得數(shù)據(jù)源的部分詞條列表。
13.根據(jù)權(quán)利要求8所述的系統(tǒng)，還包括優(yōu)化器，用于對合并結(jié)果進行優(yōu)化。
14.根據(jù)權(quán)利要求8所述的系統(tǒng)，其中所述編譯器包括語法獲得器，用于對部分詞條列表應(yīng)用語法模板，以獲得與部分詞條列表相對應(yīng)的語法；確定器，用于確定語法的音素列表；創(chuàng)建器，用于根據(jù)所述音素列表，創(chuàng)建相對應(yīng)的音素樹；優(yōu)化器，用于對所述音素樹進行優(yōu)化，以獲得相對應(yīng)的音素圖。
全文摘要
本發(fā)明公開了用于將文本轉(zhuǎn)換成語音的方法和系統(tǒng)。在本發(fā)明中，通過并行地或串行地解析數(shù)據(jù)源，獲得數(shù)據(jù)源的部分詞條列表。然后對各個部分詞條列表分別進行編譯，以獲得與各個部分詞條列表相對應(yīng)的各個音素圖。然后合并獲得的各個音素圖。然后，根據(jù)合并結(jié)果，進行語音處理。根據(jù)本發(fā)明，可以在語音識別過程中降低計算復雜度，提高識別效率。
文檔編號G10L13/04GK102479508SQ20101058033
公開日2012年5月30日申請日期2010年11月30日優(yōu)先權(quán)日2010年11月30日
發(fā)明者付國康, 劉盈, 賈賓, 韓兆兵申請人:國際商業(yè)機器公司

完整全部詳細技術(shù)資料下載