專利名稱:用于將文本轉(zhuǎn)換成語音的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息技術(shù)領(lǐng)域,更具體地,本發(fā)明涉及用于將文本轉(zhuǎn)換成語音的方法和系統(tǒng)。
背景技術(shù):
直到現(xiàn)在,LVCSR(大詞匯量連續(xù)語音識別)和NLU(自然語言處理)仍然不能滿足現(xiàn)實生活中人機語音通信的正確性和性能要求。因此,在支持語音的應(yīng)用中,例如在基于Web頁面的語音控制應(yīng)用中,如果數(shù)據(jù)源內(nèi)容發(fā)生了變化,必須根據(jù)數(shù)據(jù)源內(nèi)容動態(tài)地產(chǎn)生語法。在語音識別過程中,如何降低計算復雜度,提高識別效率,是一個需要面對的問題。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提出了一種將文本轉(zhuǎn)換成語音的方法,包括對以文本形式的數(shù)據(jù)源進行解析,以獲得數(shù)據(jù)源的部分詞條列表;對各個部分詞條列表分別進行編譯, 以獲得與各個部分詞條列表相對應(yīng)的各個音素圖;對獲得的各個音素圖進行合并;以及根據(jù)合并結(jié)果,進行語音識別。根據(jù)本發(fā)明的第二方面,提出了一種將文本轉(zhuǎn)換成語音的系統(tǒng),包括數(shù)據(jù)解析器,用于對以文本形式的數(shù)據(jù)源進行解析,以獲得數(shù)據(jù)源的部分詞條列表;一個或多個編譯器,用于對各個部分詞條列表分別進行編譯,以獲得與各個部分詞條列表相對應(yīng)的各個音素圖;合并器,用于對獲得的各個音素圖進行合并;以及語音識別器,用于根據(jù)合并結(jié)果, 進行語音識別。根據(jù)本發(fā)明,可以在語音識別過程中降低計算復雜度,提高識別效率。
通過以下結(jié)合附圖的說明,并且隨著對本發(fā)明的更全面了解,本發(fā)明的其他目的和效果將變得更加清楚和易于理解,其中圖1示出了根據(jù)本發(fā)明的第一實施方式的用于將文本轉(zhuǎn)化成語音的系統(tǒng);圖2示出了根據(jù)本發(fā)明的第二實施方式的用于將文本轉(zhuǎn)化成語音的系統(tǒng);圖3示出了根據(jù)本發(fā)明的第三實施方式的用于將文本轉(zhuǎn)化成語音的方法的流程圖;圖4示出了根據(jù)本發(fā)明的第四實施方式的用于將文本轉(zhuǎn)化成語音的方法的流程圖;圖5示出了根據(jù)本發(fā)明的將文本轉(zhuǎn)化成語音的具體例子;在所有的上述附圖中,相同的標號表示具有相同、相似或相應(yīng)的特征或功能。
具體實施例方式以下結(jié)合附圖對本發(fā)明的具體實施方式
進行描述。本發(fā)明的基本思想是通過并行地或串行地解析以文本形式的數(shù)據(jù)源,獲得數(shù)據(jù)源的部分詞條列表。然后對各個部分詞條列表分別進行編譯,以獲得與各個部分詞條列表相對應(yīng)的各個音素圖。然后合并獲得的各個音素圖。然后,根據(jù)合并結(jié)果,進行語音識別處理。圖1示出了根據(jù)本發(fā)明的第一實施方式的用于將文本轉(zhuǎn)化成語音的系統(tǒng)。如圖1所示,該系統(tǒng)100包括數(shù)據(jù)解析器110,用于對以文本形式的數(shù)據(jù)源進行解
析,以獲得數(shù)據(jù)源的部分詞條列表;多個編譯器120-1、120-2、120-3.....120-N-1、120-N,
用于對各個部分詞條列表分別進行編譯,以獲得與各個部分詞條列表相對應(yīng)的各個音素圖;合并器130,用于合并獲得的各個音素圖;語音識別器140,用于根據(jù)合并結(jié)果,進行語音識別。本領(lǐng)域的技術(shù)人員應(yīng)當理解,在這里,詞條代表字、詞、短語等常見的語法元素。部分詞條列表是指解析整個數(shù)據(jù)源應(yīng)該得到的詞條列表的一部分。在該第一實施方式中,數(shù)據(jù)解析器110串行地解析所述數(shù)據(jù)源,在獲得數(shù)據(jù)源的一個部分詞條列表后,就調(diào)用一個編譯器(例如編譯器120-1)對該部分詞條列表進行編譯,以獲得一個音素圖,然后繼續(xù)對剩下的數(shù)據(jù)源進行解析,以獲得下一個部分詞條列表。在該第一實施方式中,還包括判斷器160,用于判斷合并結(jié)果是否有足夠的信息可以進行語音識別。其中如果有足夠的信息,例如,如果有完整的一個句子,語音識別器140 就開始進行語音識別。在該第一實施方式中,在合并器130完成獲得的各個音素圖的合并之前,在當前數(shù)據(jù)源發(fā)生了變化的情況下,合并器130繼續(xù)進行對獲得的各個音素圖的合并,并緩存合并結(jié)果。在該第一實施方式中,還可以包括優(yōu)化器150,用于對合并結(jié)果進行優(yōu)化。例如,優(yōu)化器150對合并結(jié)果中相同的節(jié)點進行合并,如下面所描述的。在該第一實施方式中,編譯器120-1、120-2、120-3、...、120-N-1、120_N 中的每一個編譯器120可以包括語法獲得器1201,用于對部分詞條列表應(yīng)用語法模板,以獲得與部分詞條列表相對應(yīng)的語法;確定器1202,用于確定語法的音素列表;創(chuàng)建器1203,用于根據(jù)所述音素列表,創(chuàng)建相對應(yīng)的音素樹;優(yōu)化器1204,用于對音素樹進行優(yōu)化,以獲得相對應(yīng)
的音素圖。其中,語法模板一般包括描述語法看起來應(yīng)該是怎么樣的內(nèi)容。以下是一個語法模板的例子〈rule ID> =fford_sequence_lfford_sequence_2.....fford_sequence_N ;fford_sequence_l = word_lword_2word_3 ;fford_sequence_2 = word_lword_3word_2 ;...
Word—sequence—N = word—lword—4word—2 ;而語法具體地描述了部分詞條列表中的內(nèi)容,例如,該部分詞條列表中的內(nèi)容是英文還是中文,是英文的情況下是美國英文還是英國英文等等。以下是一個部分詞條列表的語法的例子#ABNF 1. 0 IS0-8859-1 ;language en-US ;mode voice ;root$main ;$main = red flagwhite house|yellow flagXXX I XXX0音素列表描述了詞條如何發(fā)音??梢愿鶕?jù)語法,從音素池中確定音素列表。以下是一個音素列表的例子White :HH W AY TDWhite :ff AY TDHouse :HH Aff SHouse :HH Aff ZYellow :Y EH L OffYellow :Y EH L AXRed :R EH DDFlag :F L AE GD總之,對于本領(lǐng)域的技術(shù)人員來說,是完全能夠理解語法模板、語法、音素列表、音素樹等等術(shù)語的含義的,這里出于簡便的考慮,不對其進行過多地描述。在對音素樹的優(yōu)化過程中,將音素樹中相同的節(jié)點合并,從而獲得音素圖。當然,對于本領(lǐng)域的技術(shù)人員來說,可以理解,在該第一實施方式中,如果編譯器的處理速度足夠快,即在數(shù)據(jù)解析器110向其發(fā)送一個部分詞條列表之時,已經(jīng)完成對該部分詞條列表的前面一個部分詞條列表的編譯,那么可以只需要一個編譯器。另外,本領(lǐng)域的技術(shù)人員可以理解,在編譯器120中,優(yōu)化器不是必須的。圖2示出了根據(jù)本發(fā)明的第二實施方式的用于將文本轉(zhuǎn)化成語音的系統(tǒng)。該系統(tǒng)200與圖1中所示的系統(tǒng)100相比不同之處在于該系統(tǒng)200包括一個分塊器210,用于將數(shù)據(jù)源分塊,以獲得各個數(shù)據(jù)源子塊;以及包括多個數(shù)據(jù)解析器110-1、
110-2、110-3.....110-N-1、110-N,這些數(shù)據(jù)解析器并行地解析各個數(shù)據(jù)源子塊,以獲得各
個數(shù)據(jù)源子塊的部分詞條列表。圖3示出了根據(jù)本發(fā)明的第三實施方式的用于將文本轉(zhuǎn)化成語音的方法的流程圖。如圖3所示,該方法300包括步驟S310,對以文本形式的數(shù)據(jù)源進行解析,以獲得數(shù)據(jù)源的部分詞條列表;步驟S320,對各個部分詞條列表分別進行編譯,以獲得與各個部分詞條列表相對應(yīng)的各個音素圖;步驟S330,對獲得的各個音素圖進行合并;以及步驟 S340,根據(jù)合并結(jié)果,進行語音識別。
在該第三實施方式中,串行地解析所述數(shù)據(jù)源,獲得一個部分詞條列表后,就對該部分詞條列表進行編譯,以獲得一個音素圖,然后繼續(xù)對剩下的數(shù)據(jù)源進行解析,以獲得下一個部分詞條列表。在該第三實施方式中,還包括步驟S360,在完成獲得的各個音素圖的合并之前,判斷合并結(jié)果是否有足夠的信息可以進行語音識別,如果有足夠的信息,例如,如果有完整的一個句子,就開始進行語音識別。在該第三實施方式中,在完成獲得的各個音素圖的合并之前,在當前數(shù)據(jù)源發(fā)生了變化的情況下,繼續(xù)進行對獲得的各個音素圖的合并,并緩存合并結(jié)果。在該第三實施方式中,還可以包括步驟S350 對合并結(jié)果進行優(yōu)化。在該第三實施方式中,對部分詞條列表進行編譯,以獲得與部分詞條列表相對應(yīng)的音素圖的步驟可以包括步驟S3201,對部分詞條列表應(yīng)用語法模板,以獲得與部分詞條列表相對應(yīng)的語法;步驟S3202,確定語法的音素列表;步驟S3203,根據(jù)音素列表,創(chuàng)建相對應(yīng)的音素樹;步驟S3204,對音素樹進行優(yōu)化,以獲得相對應(yīng)的音素圖。當然,本領(lǐng)域的技術(shù)人員可以理解,對音素樹進行優(yōu)化,以獲得相對應(yīng)的音素圖這個步驟不是必須的。圖4示出了根據(jù)本發(fā)明的第四實施方式的用于將文本轉(zhuǎn)化成語音的方法。該方法400與圖3中所示的方法300相比不同之處在于在該方法400中,包括步驟S405,將數(shù)據(jù)源分塊,以獲得各個數(shù)據(jù)源子塊,以及在步驟410,并行地解析各個數(shù)據(jù)源子塊,以獲得各個數(shù)據(jù)源子塊的部分詞條列表。下面根據(jù)一個例子,對本發(fā)明的實施方式進行更具體地描述。數(shù)據(jù)解析器110串行地解析數(shù)據(jù)源,獲得第一部分詞條列表,該第一部分詞條列表包括內(nèi)容Red flag,然后調(diào)用第一編譯器120-1,對該第一部分詞條列表進行編譯,以獲得第一音素圖。在該例子中,第一編譯器120-1獲得的語法如下#ABNF 1. 0 IS0-8859-1 ;language en-US ;mode voice ;root$main ;$main = Red flagXXX I XXX0確定的音素列表如下Red :R EH DDFlag :F L AE GD。創(chuàng)建的音素樹如圖5A所示。由于在該簡單例子中,如圖5A所示的音素樹已經(jīng)最優(yōu)化,因此不需要進行優(yōu)化。并且,由于這是第一個獲得的音素圖,因此此時不發(fā)生合并。另外,這里假定第一音素圖還沒有足夠的信息可以進行語音識別,因此此時也不發(fā)生語音識別。隨著數(shù)據(jù)解析器110繼續(xù)解析剩下的數(shù)據(jù)源,獲得第二部分詞條列表,該第二部分詞條列表包括內(nèi)容White house,然后調(diào)用第二編譯器120_2,對該第二部分詞條列表進
行編譯,以獲得第二音素圖。在該例子中,第二編譯器120-2獲得的語法如下#ABNF 1. 0 IS0-8859-1 ;language en-US ;mode voice ;root$main ;$main = White houseXXX I XXX0確定的音素列表如下White :HH W AY TDWhite :ff AY TDHouse :HH Aff SHouse :HH Aff Z。創(chuàng)建的音素樹如圖5B所示。由于在該簡單例子中,如圖5B所示的音素樹已經(jīng)最優(yōu)化,因此不需要進行優(yōu)化。并且,由于這是第二個獲得的音素圖,此前已經(jīng)獲得了第一音素圖,因此此時發(fā)生合并。合并結(jié)果如圖5C所示。因為第一音素圖和第二音素圖各自都具有根節(jié)點和末端節(jié)點,因此合并音素圖相對比較簡單,即合并第一音素圖和第二音素圖的根節(jié)點和末端節(jié)點。另外,這里假定合并了第一音素圖和第二音素圖的合并結(jié)果已經(jīng)有足夠的信息可以進行語音識別,因此此時發(fā)生語音識別。另外,在該例子中,此時第一音素圖和第二音素圖的合并結(jié)果已經(jīng)是最優(yōu)的,因此此時不發(fā)生對合并結(jié)果進行優(yōu)化。隨著數(shù)據(jù)解析器110繼續(xù)解析剩下的數(shù)據(jù)源,獲得第三部分詞條列表(最后一個),該第三部分詞條列表包括內(nèi)容如110 flag,然后調(diào)用第三編譯器120-3,對該第三部分詞條列表進行編譯,以獲得第三音素圖。在該例子中,第三編譯器120-3獲得的語法如下#ABNF 1. 0 IS0-8859-1 ;language en-US ;mode voice ;root$main ;$main = Yellow flagXXX I XXX0確定的音素列表如下Yellow :Y EH L OffYellow :Y EH L AXFlag :F L AE GD。創(chuàng)建的音素樹如圖5D所示。由于在該簡單例子中,如圖5D所示的音素樹已經(jīng)最優(yōu)化,因此不需要進行優(yōu)化。
并且,由于這是第三個獲得的音素圖,此前已經(jīng)獲得了第一音素圖和第二音素圖, 因此此時發(fā)生合并。合并結(jié)果如圖5E所示。另外,此時第一音素圖、第二音素圖和第三音素圖的合并結(jié)果不是最優(yōu)的,兩個分支上具有相同的節(jié)點F L AE和GD,因此此時對合并結(jié)果進行優(yōu)化。優(yōu)化后的合并結(jié)果如圖 5F所示。另外,如果在合并第三個獲得的音素圖之前,該數(shù)據(jù)源發(fā)生了變化,例如,該數(shù)據(jù)源是一個網(wǎng)頁,并且用戶點擊了該網(wǎng)頁上的鏈接之后,繼續(xù)進行第三個獲得的音素圖的合并,并緩存合并結(jié)果,以當用戶返回上面這個頁面時可以繼續(xù)使用。根據(jù)本發(fā)明,由于每次只需要確定部分詞條列表的音素圖,因此能降低計算復雜度。并且,在完成獲得的各個音素圖的合并之前,一旦合并結(jié)果已經(jīng)有足夠的信息可以進行語音識別,就開始進行語音識別,因此能提高語音識別性能。應(yīng)當注意,為了使本發(fā)明更容易理解,上面的描述省略了對于本領(lǐng)域的技術(shù)人員來說是公知的、并且對于本發(fā)明的實現(xiàn)可能是必需的更具體的一些技術(shù)細節(jié)。提供本發(fā)明的說明書的目的是為了說明和描述,而不是用來窮舉或?qū)⒈景l(fā)明限制為所公開的形式。對本領(lǐng)域的普通技術(shù)人員而言,許多修改和變更都是顯而易見的。因此,選擇并描述實施方式是為了更好地解釋本發(fā)明的原理及其實際應(yīng)用,并使本領(lǐng)域普通技術(shù)人員明白,在不脫離本發(fā)明實質(zhì)的前提下,所有修改和變更均落入由權(quán)利要求所限定的本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種將文本轉(zhuǎn)換成語音的方法,包括步驟對以文本形式的數(shù)據(jù)源進行解析,以獲得數(shù)據(jù)源的部分詞條列表;對各個部分詞條列表分別進行編譯,以獲得與各個部分詞條列表相對應(yīng)的各個音素圖;對獲得的各個音素圖進行合并;以及根據(jù)合并結(jié)果,進行語音識別。
2.根據(jù)權(quán)利要求1所述的方法,進一步包括判斷合并結(jié)果是否有足夠的信息可以進行語音識別; 其中,如果有足夠的信息就開始進行語音識別。
3.根據(jù)權(quán)利要求1所述的方法,其中,在當前數(shù)據(jù)源發(fā)生了變化的情況下,繼續(xù)進行對獲得的各個音素圖的合并,并緩存合并結(jié)果。
4.根據(jù)權(quán)利要求1所述的方法,其中對以文本形式的數(shù)據(jù)源進行解析,以獲得數(shù)據(jù)源的部分詞條列表包括將所述數(shù)據(jù)源分塊,以獲得各個數(shù)據(jù)源子塊;并行地解析各個數(shù)據(jù)源子塊,以獲得各個數(shù)據(jù)源子塊的部分詞條列表。
5.根據(jù)權(quán)利要求1所述的方法,其中對以文本形式的數(shù)據(jù)源進行解析,以獲得數(shù)據(jù)源的部分詞條列表包括串行地解析所述數(shù)據(jù)源,以獲得數(shù)據(jù)源的部分詞條列表。
6.根據(jù)權(quán)利要求1所述的方法,還包括步驟 對合并結(jié)果進行優(yōu)化。
7.根據(jù)權(quán)利要求1所述的方法,其中對部分詞條列表進行編譯,以獲得與部分詞條列表相對應(yīng)的音素圖包括 對部分詞條列表應(yīng)用語法模板,以獲得與部分詞條列表相對應(yīng)的語法; 確定所述語法的音素列表; 根據(jù)所述音素列表,創(chuàng)建相對應(yīng)的音素樹; 對所述音素樹進行優(yōu)化,以獲得相對應(yīng)的音素圖。
8.一種將文本轉(zhuǎn)換成語音的系統(tǒng),包括數(shù)據(jù)解析器,用于對以文本形式的數(shù)據(jù)源進行解析,以獲得數(shù)據(jù)源的部分詞條列表; 一個或多個編譯器,用于對各個部分詞條列表分別進行編譯,以獲得與各個部分詞條列表相對應(yīng)的各個音素圖;合并器,用于對獲得的各個音素圖進行合并;以及語音識別器,用于根據(jù)合并結(jié)果,進行語音識別。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),還包括判斷器,用于判斷合并結(jié)果是否有足夠的信息可以進行語音識別,其中如果有足夠的信息,語音識別器就開始進行語音識別。
10.根據(jù)權(quán)利要求8所述的系統(tǒng),其中,在當前數(shù)據(jù)源發(fā)生了變化的情況下,合并器繼續(xù)進行對獲得的各個音素圖的合并,并緩存合并結(jié)果。
11.根據(jù)權(quán)利要求8所述的系統(tǒng),還包括分塊器,用于將所述數(shù)據(jù)源分塊,以獲得各個數(shù)據(jù)源子塊;其中多個數(shù)據(jù)解析器并行地解析各個數(shù)據(jù)源子塊,以獲得各個數(shù)據(jù)源子塊的部分詞條列表。
12.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述數(shù)據(jù)解析器串行地解析所述數(shù)據(jù)源,以獲得數(shù)據(jù)源的部分詞條列表。
13.根據(jù)權(quán)利要求8所述的系統(tǒng),還包括 優(yōu)化器,用于對合并結(jié)果進行優(yōu)化。
14.根據(jù)權(quán)利要求8所述的系統(tǒng), 其中所述編譯器包括語法獲得器,用于對部分詞條列表應(yīng)用語法模板,以獲得與部分詞條列表相對應(yīng)的語法;確定器,用于確定語法的音素列表;創(chuàng)建器,用于根據(jù)所述音素列表,創(chuàng)建相對應(yīng)的音素樹;優(yōu)化器,用于對所述音素樹進行優(yōu)化,以獲得相對應(yīng)的音素圖。
全文摘要
本發(fā)明公開了用于將文本轉(zhuǎn)換成語音的方法和系統(tǒng)。在本發(fā)明中,通過并行地或串行地解析數(shù)據(jù)源,獲得數(shù)據(jù)源的部分詞條列表。然后對各個部分詞條列表分別進行編譯,以獲得與各個部分詞條列表相對應(yīng)的各個音素圖。然后合并獲得的各個音素圖。然后,根據(jù)合并結(jié)果,進行語音處理。根據(jù)本發(fā)明,可以在語音識別過程中降低計算復雜度,提高識別效率。
文檔編號G10L13/04GK102479508SQ20101058033
公開日2012年5月30日 申請日期2010年11月30日 優(yōu)先權(quán)日2010年11月30日
發(fā)明者付國康, 劉盈, 賈賓, 韓兆兵 申請人:國際商業(yè)機器公司