專利名稱:語音合成裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音合成裝置和一種語音合成方法,用于根據(jù)輸入其中的文本數(shù)據(jù)合成語音,尤其涉及這樣一種語音合成裝置和一種語音合成方法,用于根據(jù)輸入其中的文本數(shù)據(jù)合成語音,以輸出由記錄的語音部分和合成的語音部分組成的語音,該合成的語音部分具有與記錄的語音部分一致的回聲特性,以減少由于記錄的語音部分和合成的語音部分之間音質(zhì)的不同引起的奇怪的感覺。
背景技術(shù):
近年來,已經(jīng)發(fā)展和使用了各種的語音合成裝置用于根據(jù)輸入其中的文本數(shù)據(jù)合成語音。該類型的語音合成裝置通常包括一個(gè)數(shù)據(jù)庫,其工作以便將某種語言中的語音分為多個(gè)語音段,每個(gè)至少包括該語言中的一個(gè)音素,將每個(gè)語音段分解為多個(gè)音調(diào)波形,將這些音調(diào)波形與每個(gè)語音段相關(guān)聯(lián),然后在數(shù)據(jù)庫中存儲與這些音調(diào)波形相聯(lián)系的每個(gè)語音段。當(dāng)合成語音時(shí),使用在數(shù)據(jù)庫中與每個(gè)語音段相聯(lián)系而存儲的音調(diào)波形。
例如,一個(gè)這樣的傳統(tǒng)語音合成裝置被公開在日本專利申請公開出版物No.27789/1993中。
參考附圖中的圖5,其示出了一種傳統(tǒng)的語音合成裝置500,包括文本輸入單元501、文本判斷單元502、合成方法選擇單元503、合成單元504、再現(xiàn)單元505、語音疊加單元506和輸出單元507。
文本輸入單元501適于輸入文本數(shù)據(jù)。文本判斷單元502適于分解文本數(shù)據(jù),例如,將由文本輸入單元501輸入的“This is a pen”分解為多個(gè)文本數(shù)據(jù)元素,例如“This”、“is”、“a”和“pen”,并分析每個(gè)文本數(shù)據(jù)元素。合成方法選擇單元503適于基于由文本判斷單元502進(jìn)行的分析從合成方法和再現(xiàn)方法中選擇每個(gè)文本數(shù)據(jù)元素的合成方法。然后,合成方法選擇單元503被操作以輸出文本數(shù)據(jù)元素(例如,為合成方法所選擇的“a”和“pen”)到合成單元504,和輸出文本數(shù)據(jù)元素(例如,為再現(xiàn)方法所選擇的“this”和“is”)到再現(xiàn)單元505。合成單元504適于根據(jù)從合成方法選擇單元503輸入的文本數(shù)據(jù)元素(即,“a”和“pen”)產(chǎn)生合成的語音部分。再現(xiàn)單元505適于根據(jù)從合成方法選擇單元503輸入的文本數(shù)據(jù)元素(即,“this”和“is”)再現(xiàn)記錄的語音部分。
語音疊加單元506適于輸入和疊加由合成單元504產(chǎn)生的合成的語音部分和由再現(xiàn)單元505再現(xiàn)的記錄的語音部分的波形,以輸出由表示“this”和“is”的記錄的語音部分和表示“a”和“pen”的合成的語音部分組成的語音“this is a pen”。輸出單元507適于輸出從語音疊加單元506輸入的語音到外部設(shè)備,諸如揚(yáng)聲器(未示出)。
這樣構(gòu)造的傳統(tǒng)的語音合成裝置500可以根據(jù)輸入其中的文本數(shù)據(jù)合成由記錄的語音部分和合成的語音部分組成的語音。而且,上面提到的傳統(tǒng)的語音合成裝置500部分再現(xiàn)了記錄的語音部分,例如“this”和“is”,其是記錄的自然的話音,因而能夠合成類似于對聽者而言言語清晰的自然語音的語音。
然而,傳統(tǒng)的語音合成裝置500帶來的問題是,構(gòu)成相同語音的記錄的語音部分和合成的語音部分在音質(zhì)上是不同的。在記錄的語音部分和合成的語音部分之間音質(zhì)上的不同會引起聽者被奇怪的感覺所困擾。在記錄的語音部分和合成的語音部分之間音質(zhì)上的不同變得越大,聽者越需要仔細(xì)聽該語音,從而使她或他對專注于理解該言語感到疲憊。
每種自然的聲音在聲源已經(jīng)被切斷后因?yàn)橹貜?fù)的反射都有聲音延續(xù)。在聲源已經(jīng)被切斷后的聲音延續(xù)以后被稱為“回聲”。合成的語音部分沒有回聲,而另一方面記錄的語音部分有回聲。在聲音質(zhì)量中的前述不同,部分是由于在記錄的語音部分和合成的語音部分之間出現(xiàn)或不出現(xiàn)回聲的不同。這意味著在記錄的語音部分和合成的語音部分之間出現(xiàn)或不出現(xiàn)回聲的不同會引起聽者被奇怪的感覺所困擾。該不同變得越大,聽者越需要仔細(xì)聽該語音,從而使她或他對專注于理解該言語感到疲憊。
另外,合成的語音部分比記錄的語音部分發(fā)音更加不清晰。在聲音質(zhì)量中的前述不同,還由于在記錄的語音部分和合成的語音部分之間發(fā)音清晰度上的不同。這意味著在記錄的語音部分和合成的語音部分之間發(fā)音清晰度上的不同會引起聽者被奇怪的感覺所困擾。該不同變得越大,聽者越需要仔細(xì)聽該語音,從而使她或他對專注于理解該言語感到疲憊。
考慮到要克服傳統(tǒng)的語音合成裝置內(nèi)在的前述缺陷,提出了本發(fā)明。
發(fā)明內(nèi)容
因此本發(fā)明的一個(gè)目的是提供一種語音合成裝置,用于根據(jù)輸入其中的文本數(shù)據(jù)合成由記錄的語音部分和合成的語音部分組成的語音,該合成的語音部分具有與記錄的語音部分一致的回聲特性。根據(jù)本發(fā)明的語音合成裝置能夠合成語音,且其中在記錄的語音部分和合成的語音部分之間的回聲上的不同大大減少,從而幫助聽者專注地和舒適地收聽該言語。
本發(fā)明的另一個(gè)目的是提供一種語音合成裝置,用于合成由記錄的語音部分和具有回聲特性的合成的語音部分組成的語音,其中具有回聲特性的合成的語音部分在幅值上比記錄的語音部分實(shí)質(zhì)上大。這樣調(diào)節(jié)的具有回聲特性的合成的語音部分在發(fā)音清晰度上提高了。這意味著根據(jù)本發(fā)明的語音合成裝置可以合成語音,且其中在記錄的語音部分和合成的語音部分之間的發(fā)音清晰度上的不同大大減少,從而幫助聽者專注地和舒適地收聽該言語。
本發(fā)明的另一個(gè)目的是提供一種語音合成方法,用于根據(jù)輸入其中的文本數(shù)據(jù)合成由記錄的語音部分和合成的語音部分組成的語音,該合成的語音部分具有與記錄的語音部分一致的回聲特性。根據(jù)本發(fā)明的語音合成方法能夠合成語音,且其中在記錄的語音部分和合成的語音部分之間的回聲上的不同大大減少,從而幫助聽者專注地和舒適地收聽該言語。
本發(fā)明的另一個(gè)目的是提供一種語音合成方法,用于合成由記錄的語音部分和具有回聲特性的合成的語音部分組成的語音,其中具有回聲特性的合成的語音部分在幅值上比記錄的語音部分實(shí)質(zhì)上大。這樣調(diào)節(jié)的具有回聲特性的合成的語音部分在發(fā)音清晰度上提高了。這意味著根據(jù)本發(fā)明的語音合成方法可以合成語音,且其中在記錄的語音部分和合成的語音部分之間的發(fā)音清晰度上的不同大大減少,從而幫助聽者專注地和舒適地收聽該言語。
通過結(jié)合附圖的以下描述,根據(jù)本發(fā)明的語音合成裝置和語音合成方法的特征和優(yōu)點(diǎn)將被更清楚地理解,附圖中圖1是根據(jù)本發(fā)明的語音合成裝置100的第一個(gè)實(shí)施例的方框圖;圖2是示出由圖1所示的語音合成裝置100執(zhí)行的語音合成方法的流程圖;圖3是根據(jù)本發(fā)明的語音合成裝置200的第二個(gè)實(shí)施例的方框圖;圖4是示出由圖3所示的語音合成裝置200執(zhí)行的語音合成方法的流程圖;和圖5是傳統(tǒng)的語音合成裝置500的方框圖。
具體實(shí)施例方式
參考附圖,特別是圖1和圖2,其示出了實(shí)施了本發(fā)明的第一個(gè)實(shí)施例的語音合成裝置100,用于根據(jù)輸入其中的文本數(shù)據(jù)合成語音。圖1所示的第一個(gè)實(shí)施例的語音合成裝置100包括文本存儲單元101、語音部分存儲單元102、語音段存儲單元103、文本輸入單元104、判斷單元105、拆分單元106、記錄的語音裝載單元107、語音合成單元108、回聲特性賦予單元109、語音疊加單元110和語音輸出單元111。
文本存儲單元101適于在其中存儲多個(gè)記錄的文本數(shù)據(jù)元素,其將在后面描述。語音部分存儲單元102適于在其中存儲分別對應(yīng)于記錄的文本數(shù)據(jù)元素的多個(gè)記錄的語音部分。語音段存儲單元103適于存儲多個(gè)語音段。這里,語音段意味著包括至少一個(gè)音素的語音的段。文本輸入單元104適于輸入文本數(shù)據(jù)。
判斷單元105適于從文本輸入單元104輸入文本數(shù)據(jù),并將文本數(shù)據(jù)分解為多個(gè)文本數(shù)據(jù)元素。這里,文本數(shù)據(jù)元素意味著文本數(shù)據(jù)的成分單位。
判斷單元105然后被操作以便一個(gè)文本數(shù)據(jù)元素接一個(gè)地判斷是否文本數(shù)據(jù)元素與存儲在文本存儲單元101中的記錄的文本數(shù)據(jù)元素的任一個(gè)一致。拆分單元106適于基于判斷單元105的判斷結(jié)果,將文本數(shù)據(jù)元素拆分為由記錄的文本部分和未記錄的文本部分組成的兩個(gè)文本部分,記錄的文本部分包括與存儲在文本存儲單元101中的文本數(shù)據(jù)元素一致的記錄的文本數(shù)據(jù)元素,未記錄的文本部分包括與未存儲在文本存儲單元101中的文本數(shù)據(jù)元素一致的未記錄的文本數(shù)據(jù)元素。
記錄的語音裝載單元107適于輸入由拆分單元106拆分的包括與文本數(shù)據(jù)元素一致的記錄的文本數(shù)據(jù)元素的記錄的文本部分,并從存儲在語音部分存儲單元102中的記錄的語音部分中,選擇性地裝載分別對應(yīng)于記錄的文本部分的記錄的文本數(shù)據(jù)元素的記錄的語音部分。
語音合成單元108適于輸入由拆分單元106拆分的包括與文本數(shù)據(jù)元素一致的未記錄的文本數(shù)據(jù)元素的未記錄的文本部分,并根據(jù)未記錄的文本部分的未記錄的文本數(shù)據(jù)元素合成在語音段存儲單元103中存儲的語音段,以產(chǎn)生合成的語音部分。
回聲特性賦予單元109適于將與存儲在語音部分存儲單元102中的記錄的語音部分一致的回聲特性,賦予由語音合成單元108產(chǎn)生的合成的語音部分,從而構(gòu)造具有回聲特性的合成的語音部分。
語音疊加單元110適于疊加由記錄的語音裝載單元107裝載的記錄的語音部分和由回聲特性賦予單元109構(gòu)造的具有回聲特性的合成的語音部分,以產(chǎn)生由記錄的語音部分和具有回聲特性的合成的語音部分組成的語音。
語音輸出單元111適于輸出由語音疊加單元110疊加的由記錄的語音部分和具有回聲特性的合成的語音部分組成的語音。
下面參考圖2描述語音合成裝置100的操作。
為了簡化描述和幫助了解語音合成裝置100的整個(gè)操作,假定文本輸入單元104被操作以輸入文本數(shù)據(jù)“this is a pen”,判斷單元105被操作以分解文本數(shù)據(jù)“this is a pen”為多個(gè)文本數(shù)據(jù)元素,即“this”、“is”、“a”和“pen”,且文本數(shù)據(jù)元素“this”和“is”已經(jīng)存儲在文本存儲單元101中。然而,根據(jù)本發(fā)明,文本數(shù)據(jù)不限于“this is a pen”,文本數(shù)據(jù)元素也不限于“this is a pen”和“this”、“is”、“a”和“pen”。
在步驟S201,文本輸入單元104被操作以輸入文本數(shù)據(jù),即“this is apen”。步驟S201前進(jìn)到步驟S202,其中判斷單元105被操作以從文本輸入單元104輸入文本數(shù)據(jù),即“this is a pen”,并分解該文本數(shù)據(jù)為多個(gè)文本數(shù)據(jù)元素的成分單位,即“this”、“is”、“a”和“pen”。判斷單元105然后被操作以便一個(gè)文本數(shù)據(jù)元素接一個(gè)地判斷是否文本數(shù)據(jù)元素與存儲在文本存儲單元101中的記錄的文本數(shù)據(jù)元素的任一個(gè)一致。在該實(shí)施例中,如上所述,文本數(shù)據(jù)元素“this”和“is”存儲在文本存儲單元101中。因此,判斷單元105被操作以判斷,文本數(shù)據(jù)元素“this”和“is”與存儲在文本存儲單元101中的記錄的文本數(shù)據(jù)元素的任一個(gè)一致。拆分單元106基于判斷單元105的判斷結(jié)果,被操作以拆分文本數(shù)據(jù)元素“this is a pen”為由記錄的文本部分和未記錄的文本部分組成的兩個(gè)文本部分,記錄的文本部分包括與存儲在文本存儲單元101中的文本數(shù)據(jù)元素“this”和“is”相一致的記錄的文本數(shù)據(jù)元素,未記錄的文本部分包括與未存儲在文本存儲單元101中的文本數(shù)據(jù)元素“a”和“pen”相一致的未記錄的文本數(shù)據(jù)元素。這意味著在該階段,記錄的文本數(shù)據(jù)部分包括記錄的文本數(shù)據(jù)元素“this”和“is”,未記錄的文本數(shù)據(jù)部分包括未記錄的文本數(shù)據(jù)元素“a”和“pen”。
在步驟S202中執(zhí)行的操作將被詳細(xì)描述。
在步驟S202,例如,如果判斷單元105判斷文本數(shù)據(jù)元素(例如,“this”)與存儲在文本存儲單元101中的記錄的文本數(shù)據(jù)元素的任一個(gè)相一致,則拆分單元106基于判斷單元105的結(jié)果被操作以將文本數(shù)據(jù)元素“this”拆分為記錄的文本部分,該記錄的文本部分包括與存儲在文本存儲單元101中的文本數(shù)據(jù)元素“this”一致的記錄的文本數(shù)據(jù)元素,并輸出記錄的文本數(shù)據(jù)元素“this”到記錄的語音裝載單元107。
另一方面,如果判斷單元105判斷文本數(shù)據(jù)元素(例如,“a”)與存儲在文本存儲單元101中的記錄的文本數(shù)據(jù)元素的任一個(gè)都不一致,則拆分單元106基于判斷單元105的結(jié)果被操作以將文本數(shù)據(jù)元素“a”拆分為未記錄的文本部分,該未記錄的文本部分包括與未存儲在文本存儲單元101中的文本數(shù)據(jù)元素“a”一致的未記錄的文本數(shù)據(jù)元素,并輸出未記錄的文本數(shù)據(jù)元素“a”到語音合成單元108。
在步驟S203,記錄的語音裝載單元107被操作以輸入記錄的文本部分,該記錄的文本部分包括由拆分單元106拆分的記錄的文本數(shù)據(jù)元素,即“this”和“is”,并從語音部分存儲單元102中存儲的記錄的語音部分中,選擇性地裝載分別對應(yīng)于記錄的文本部分的記錄的文本數(shù)據(jù)元素,即,“this”和“is”的記錄的語音部分。
在步驟S204,語音合成單元108被操作以輸入未記錄的文本部分,該未記錄的文本部分包括由拆分單元106拆分的未記錄的文本數(shù)據(jù)元素,即“a”和“pen”,并根據(jù)未記錄的文本部分的未記錄的文本數(shù)據(jù)元素,即“a”和“pen”合成存儲在語音段存儲單元103中的語音段,以產(chǎn)生合成的語音部分。
下面的描述將針對語音段存儲單元103和語音合成單元108的操作。
語音段存儲單元103被操作以存儲多個(gè)語音段,每個(gè)語音段至少包括一個(gè)音素,且可拆分為多個(gè)音調(diào)波形。在語音段存儲單元103中,語音段被分別在音素上與音調(diào)波形相聯(lián)系。語音合成單元108被操作以便根據(jù)由拆分單元106拆分的未記錄的文本部分的未記錄的文本數(shù)據(jù)元素,即“a”和“pen”,通過疊加在音素上與語音段相聯(lián)系的音調(diào)波形,合成這樣存儲在語音段存儲單元103中的語音段,以產(chǎn)生代表文本數(shù)據(jù)元素,即“a”和“pen”的合成的語音部分。
步驟S204前進(jìn)到步驟S205,其中回聲特性賦予單元109被操作以便將與存儲在語音部分存儲單元102中的記錄的語音部分一致的回聲特性賦予由語音合成單元108產(chǎn)生的合成的語音部分,從而構(gòu)造具有回聲特性的合成的語音部分?;芈曁匦砸馕吨涗浀恼Z音部分所固有的回聲特性。更具體說,存儲在語音部分存儲單元102中的記錄的語音部分的回聲特性已經(jīng)被預(yù)先測量?;谶@樣預(yù)先測量的存儲在語音部分存儲單元102中的記錄的語音部分的回聲特性,回聲特性賦予單元109被操作以便將與記錄的語音部分一致的回聲特性賦予合成的語音部分。
步驟S203和步驟S205前進(jìn)到步驟S206,其中判斷是否已經(jīng)輸入了所有文本數(shù)據(jù)。根據(jù)本發(fā)明,可以由任何合適的組成部件(例如,諸如語音疊加單元110)進(jìn)行是否已經(jīng)輸入了所有文本數(shù)據(jù)的判斷。例如,如果判斷還沒有輸入了所有文本數(shù)據(jù),則步驟S206返回到步驟S202,將對剩余的文本數(shù)據(jù)元素一個(gè)文本數(shù)據(jù)元素接一個(gè)地重復(fù)從步驟S202到步驟S206的步驟中的上述處理。
另一方面,如果判斷已經(jīng)輸入了所有的文本數(shù)據(jù),則步驟S206前進(jìn)到步驟S207,其中語音疊加單元110被操作以便一個(gè)文本數(shù)據(jù)元素接一個(gè)地疊加由記錄的語音裝載單元107這樣裝載的記錄的語音部分和由回聲特性賦予單元109構(gòu)造的具有回聲特性的合成的語音部分,以便產(chǎn)生由記錄的語音部分和具有回聲特性的合成的語音部分組成的語音。根據(jù)本發(fā)明,語音疊加單元110可以根據(jù)文本數(shù)據(jù)元素,通過疊加與記錄的語音部分和合成的語音部分相聯(lián)系的音調(diào)波形,疊加記錄的語音部分和合成的語音部分。
步驟S207前進(jìn)到步驟S208,其中語音疊加單元110將這樣疊加的由記錄的語音部分和合成的語音部分組成的語音輸出到語音輸出單元111。然后語音輸出單元111被操作以輸出由語音疊加單元110這樣疊加的由記錄的語音部分和具有回聲特性的合成的語音部分組成的語音到外部設(shè)備,例如揚(yáng)聲器(未示出)。
從前面的描述可以看出,應(yīng)該理解根據(jù)本發(fā)明的語音合成裝置100能夠合成語音,其中在記錄的語音部分和合成的語音部分之間在回聲上的不同將大大減少,從而幫助聽者專注地和舒適地收聽該言語。
參考附圖,特別是圖3和圖4,其示出了實(shí)施了本發(fā)明的第二個(gè)實(shí)施例的語音合成裝置200,用于根據(jù)輸入其中的文本數(shù)據(jù)合成語音。圖3所示的第二個(gè)實(shí)施例的語音合成裝置200包括文本存儲單元101、語音部分存儲單元102、語音段存儲單元103、文本輸入單元104、判斷單元105、拆分單元106、記錄的語音裝載單元107、語音合成單元108、回聲特性賦予單元109、噪聲測量單元210、語音疊加單元110和語音輸出單元111?;芈曁匦再x予單元109還包括幅值調(diào)節(jié)單元209。
第二個(gè)實(shí)施例的語音合成裝置200幾乎與第一個(gè)實(shí)施例的語音合成裝置100在結(jié)構(gòu)上相同,除了幅值調(diào)節(jié)單元209和噪聲測量單元210以外。與第一個(gè)實(shí)施例的語音合成裝置100相同的部分就不詳細(xì)描述了。
噪聲測量單元210適于測量可聽見地輸出該語音的環(huán)境中的噪聲電平。幅值調(diào)節(jié)單元209適于基于由噪聲測量單元210測量的噪聲電平和由記錄的語音裝載單元107裝載的記錄的語音部分的幅值,調(diào)節(jié)由回聲特性賦予單元109構(gòu)造的具有回聲特性的合成的語音部分的幅值,使得具有回聲特性的合成的語音部分在幅值上與噪聲電平成比例地比記錄的語音部分實(shí)質(zhì)上大。
語音合成裝置200的操作將參考圖4詳細(xì)描述。語音合成裝置200的操作幾乎與語音合成裝置100的操作相同,除了步驟S210以外。與語音合成裝置100相同的步驟就不詳細(xì)描述了。
在步驟S210,噪聲測量單元210被操作以測量可聽見地輸出該語音的環(huán)境中的噪聲電平。然后幅值調(diào)節(jié)單元209被操作以基于由噪聲測量單元210測量的噪聲電平和由記錄的語音裝載單元107裝載的記錄的語音部分的幅值,調(diào)節(jié)由回聲特性賦予單元109構(gòu)造的具有回聲特性的合成的語音部分的幅值,使得具有回聲特性的合成的語音部分在幅值上與噪聲電平成比例地比記錄的語音部分實(shí)質(zhì)上大。
如果可聽見地輸出該語音的環(huán)境中的噪聲電平高,則記錄的語音部分和合成的語音部分之間的發(fā)音清晰度上的不同就大,而另一方面,如果可聽見地輸出該語音的環(huán)境中的噪聲電平低,則記錄的語音部分和合成的語音部分之間的發(fā)音清晰度上的不同就小。
這意味著,如果噪聲電平高,幅值調(diào)節(jié)單元209被操作以增加具有回聲特性的合成的語音部分的幅值,使得具有回聲特性的合成的語音部分的幅值變得比記錄的語音部分的幅值大得多,這樣,相對于記錄的語音部分,合成的語音部分就發(fā)音足夠清晰到使得聽者可以理解。另一方面,如果噪聲電平低,幅值調(diào)節(jié)單元209被操作以增加具有回聲特性的合成的語音部分的幅值,使得具有回聲特性的合成的語音部分的幅值變得比記錄的語音部分的幅值稍微大一些,這樣,相對于記錄的語音部分,合成的語音部分就發(fā)音足夠清晰到使得聽者可以理解。
步驟S203和步驟S210前進(jìn)到步驟S206,其中判斷是否已經(jīng)輸入了所有文本數(shù)據(jù)。例如,如果判斷還沒有輸入了所有文本數(shù)據(jù),則步驟S206返回到步驟S202,將對剩余的文本數(shù)據(jù)元素一個(gè)文本數(shù)據(jù)元素接一個(gè)地重復(fù)從步驟S202到步驟S206的步驟中的上述處理。
另一方面,如果判斷已經(jīng)輸入了所有的文本數(shù)據(jù),則步驟S206前進(jìn)到步驟S207,其中語音疊加單元110被操作以便一個(gè)文本數(shù)據(jù)元素接一個(gè)地疊加由記錄的語音裝載單元107這樣裝載的記錄的語音部分和由幅值調(diào)節(jié)單元209調(diào)節(jié)的具有回聲特性的合成的語音部分,以便產(chǎn)生由記錄的語音部分和具有回聲特性的合成的語音部分組成的語音。
步驟S207前進(jìn)到步驟S208,其中語音疊加單元110將這樣疊加的由記錄的語音部分和合成的語音部分組成的語音輸出到語音輸出單元111。然后語音輸出單元111被操作以輸出由語音疊加單元110這樣疊加的由記錄的語音部分和具有回聲特性的合成的語音部分組成的語音到外部設(shè)備,例如揚(yáng)聲器(未示出)。
從前面的描述可以看出,應(yīng)該理解根據(jù)本發(fā)明的語音合成裝置能夠合成語音,其中在記錄的語音部分和合成的語音部分之間在清晰度上的不同將大大減少,從而幫助聽者專注地和舒適地收聽該言語。
通過詳細(xì)的說明,本發(fā)明的許多特征和優(yōu)點(diǎn)是很清楚的,因此,所附權(quán)利要求的目的是覆蓋所有落入其真正精神和范圍內(nèi)的發(fā)明的特征和優(yōu)點(diǎn)。另外,對本領(lǐng)域的技術(shù)人員而言,由于各種修正和改變將易于發(fā)生,因此其不是要限制本發(fā)明到其中圖示或描述的特定結(jié)構(gòu)和操作,相應(yīng)地所有適合的修改和等價(jià)物可以被構(gòu)造為包括在本發(fā)明的范圍內(nèi)。
權(quán)利要求
1.一種語音合成裝置,用于根據(jù)輸入其中的文本數(shù)據(jù)合成語音,該裝置包括文本存儲單元,用于在其中存儲多個(gè)記錄的文本數(shù)據(jù)元素;語音部分存儲單元,用于在其中存儲分別對應(yīng)于所述記錄的文本數(shù)據(jù)元素的多個(gè)記錄的語音部分;語音段存儲單元,用于存儲多個(gè)語音段;文本輸入單元,用于輸入所述文本數(shù)據(jù);判斷單元,用于將由所述文本輸入單元輸入的所述文本數(shù)據(jù)分解為多個(gè)文本數(shù)據(jù)元素,一個(gè)文本數(shù)據(jù)元素接一個(gè)地判斷是否所述文本數(shù)據(jù)元素與存儲在所述文本存儲單元中的所述記錄的文本數(shù)據(jù)元素的任一個(gè)一致;拆分單元,用于基于所述判斷單元的判斷結(jié)果,將所述文本數(shù)據(jù)元素拆分為由記錄的文本部分和未記錄的文本部分組成的兩個(gè)文本部分,所述記錄的文本部分包括與存儲在所述文本存儲單元中的所述文本數(shù)據(jù)元素一致的記錄的文本數(shù)據(jù)元素,所述未記錄的文本部分包括與未存儲在所述文本存儲單元中的所述文本數(shù)據(jù)元素一致的未記錄的文本數(shù)據(jù)元素;記錄的語音裝載單元,用于輸入由所述拆分單元拆分的包括與所述文本數(shù)據(jù)元素一致的所述記錄的文本數(shù)據(jù)元素的所述記錄的文本部分,并從存儲在所述語音部分存儲單元中的記錄的語音部分中,選擇性地裝載分別對應(yīng)于所述記錄的文本部分的所述記錄的文本數(shù)據(jù)元素的記錄的語音部分;語音合成單元,用于輸入由所述拆分單元拆分的包括與所述文本數(shù)據(jù)元素一致的所述未記錄的文本數(shù)據(jù)元素的所述未記錄的文本部分,并根據(jù)所述未記錄的文本部分的所述未記錄文本數(shù)據(jù)元素合成在所述語音段存儲單元中存儲的所述語音段,以產(chǎn)生合成的語音部分;回聲特性賦予單元,用于將與存儲在所述語音部分存儲單元中的所述記錄的語音部分的回聲特性一致的回聲特性,賦予由所述語音合成單元產(chǎn)生的所述合成的語音部分,從而構(gòu)造具有所述回聲特性的合成的語音部分;語音疊加單元,用于疊加由所述記錄的語音裝載單元裝載的所述記錄的語音部分和由所述回聲特性賦予單元構(gòu)造的具有所述回聲特性的所述合成的語音部分,以產(chǎn)生由所述記錄的語音部分和具有所述回聲特性的所述合成的語音部分組成的所述語音;和語音輸出單元,用于輸出由所述記錄的語音部分和具有回聲特性的所述合成的語音部分組成的所述語音。
2.如權(quán)利要求1所述的語音合成裝置,還包括噪聲測量單元,用于測量可聽見地輸出所述語音的環(huán)境中的噪聲電平,其中所述回聲特性賦予單元還包括幅值調(diào)節(jié)單元,用于基于由所述噪聲測量單元測量的所述噪聲電平和由所述記錄的語音裝載單元裝載的所述記錄的語音部分的幅值,調(diào)節(jié)由所述回聲特性賦予單元構(gòu)造的具有所述回聲特性的所述合成的語音部分的幅值,使得具有所述回聲特性的所述合成的語音部分在幅值上與所述噪聲電平成比例地比所述記錄的語音部分實(shí)質(zhì)上大;從而所述語音疊加單元被操作以疊加由所述記錄的語音裝載單元裝載的所述記錄的語音部分和由所述幅值調(diào)節(jié)單元調(diào)節(jié)的具有所述回聲特性的所述合成的語音部分,以便產(chǎn)生由包括所述記錄的語音部分和具有回聲特性的所述合成的語音部分的所述語音部分組成的所述語音。
3.如權(quán)利要求1或2所述的語音合成裝置,其中所述語音段存儲單元被操作以存儲多個(gè)語音段,每個(gè)語音段至少包括一個(gè)音素,且可拆分為多個(gè)音調(diào)波形,所述語音段被分別在所述音素上與所述音調(diào)波形相關(guān)聯(lián),且所述語音合成單元被操作以便根據(jù)由所述拆分單元拆分的所述未記錄的文本部分的所述未記錄的文本數(shù)據(jù)元素,通過疊加在所述音素上與所述語音段相關(guān)聯(lián)的所述音調(diào)波形,合成存儲在所述語音段存儲單元中的所述語音段,以產(chǎn)生合成的語音部分。
4.一種語音合成方法,用于根據(jù)輸入其中的文本數(shù)據(jù)合成語音,該方法包括以下步驟(a)在其中存儲多個(gè)記錄的文本數(shù)據(jù)元素;(b)其中存儲分別對應(yīng)于所述記錄的文本數(shù)據(jù)元素的多個(gè)記錄的語音部分;(c)存儲多個(gè)語音段;(d)輸入所述文本數(shù)據(jù);(e)將在所述步驟(d)輸入的所述文本數(shù)據(jù)分解為多個(gè)文本數(shù)據(jù)元素,一個(gè)文本數(shù)據(jù)元素接一個(gè)地判斷是否所述文本數(shù)據(jù)元素與在所述步驟(a)中存儲的所述記錄的文本數(shù)據(jù)元素的任一個(gè)一致;(f)基于在所述步驟(e)中的判斷結(jié)果,將所述文本數(shù)據(jù)元素拆分為由記錄的文本部分和未記錄的文本部分組成的兩個(gè)文本部分,所述記錄的文本部分包括與在所述步驟(a)中存儲的所述文本數(shù)據(jù)元素一致的記錄的文本數(shù)據(jù)元素,所述未記錄的文本部分包括與未在所述步驟(a)中存儲的所述文本數(shù)據(jù)元素一致的未記錄的文本數(shù)據(jù)元素;(g)輸入在所述步驟(f)中拆分的包括與所述文本數(shù)據(jù)元素一致的所述記錄的文本數(shù)據(jù)元素的所述記錄的文本部分,并從在所述步驟(b)中存儲的記錄的語音部分中,選擇性地裝載分別對應(yīng)于所述記錄的文本部分的所述記錄的文本數(shù)據(jù)元素的記錄的語音部分;(h)輸入在所述步驟(f)中拆分的包括與所述文本數(shù)據(jù)元素一致的所述未記錄的文本數(shù)據(jù)元素的所述未記錄的文本部分,并根據(jù)所述未記錄的文本部分的所述未記錄的文本數(shù)據(jù)元素合成在所述步驟(c)中存儲的所述語音段,以產(chǎn)生合成的語音部分;(i)將與在所述步驟(b)中存儲的所述記錄的語音部分的回聲特性一致的回聲特性,賦予在所述步驟(h)中產(chǎn)生的所述合成的語音部分,從而構(gòu)造具有所述回聲特性的合成的語音部分;(j)疊加在所述步驟(g)中裝載的所述記錄的語音部分和在所述步驟(i)中構(gòu)造的具有所述回聲特性的所述合成的語音部分,以產(chǎn)生由所述記錄的語音部分和具有所述回聲特性的所述合成的語音部分組成的所述語音;和(k)輸出由所述記錄的語音部分和具有回聲特性的所述合成的語音部分組成的所述語音。
5.如權(quán)利要求4所述的語音合成方法,還包括以下步驟(1)測量可聽見地輸出所述語音的環(huán)境中的噪聲電平,其中所述步驟(i)還包括步驟(i-1)基于在所述步驟(1)中測量的所述噪聲電平和在所述步驟(g)中裝載的所述記錄的語音部分的幅值,調(diào)節(jié)在所述步驟(i)中構(gòu)造的具有所述回聲特性的所述合成的語音部分的幅值,使得具有所述回聲特性的所述合成的語音部分在幅值上與所述噪聲電平成比例地比所述記錄的語音部分實(shí)質(zhì)上大;從而所述步驟(j)具有以下步驟疊加在所述步驟(g)中裝載的所述記錄的語音部分和在所述步驟(i-1)中調(diào)節(jié)的具有所述回聲特性的所述合成的語音部分,以便產(chǎn)生由包括所述記錄的語音部分和具有回聲特性的所述合成的語音部分的所述語音部分組成的所述語音。
6.如權(quán)利要求4或5所述的語音合成方法,其中所述步驟(c)具有以下步驟存儲多個(gè)語音段,每個(gè)語音段至少包括一個(gè)音素,且可拆分為多個(gè)音調(diào)波形,所述語音段被分別在所述音素上與所述音調(diào)波形相聯(lián)系,且所述步驟(h)具有以下步驟,根據(jù)在所述步驟(f)中拆分的所述未記錄的文本部分的所述未記錄的文本數(shù)據(jù)元素,通過疊加在所述音素上與所述語音段相聯(lián)系的所述音調(diào)波形,合成在所述步驟(c)中存儲的所述語音段,以產(chǎn)生合成的語音部分。
全文摘要
公開了一種語音合成裝置和一種語音合成方法,用于根據(jù)輸入其中的文本數(shù)據(jù)合成語音,以輸出由記錄的語音部分和具有與記錄的語音部分一致的回聲特性的合成的語音部分組成的語音,其中具有回聲特性的合成的語音部分在幅值上比記錄的語音部分實(shí)質(zhì)上大,以減少由于記錄的語音部分和合成的語音部分之間音質(zhì)的不同引起的奇怪的感覺。
文檔編號G10L13/00GK1356687SQ0113933
公開日2002年7月3日 申請日期2001年11月26日 優(yōu)先權(quán)日2000年11月29日
發(fā)明者野敏幸, 西村洋文 申請人:松下電器產(chǎn)業(yè)株式會社