專(zhuān)利名稱(chēng):用于合成文本段落發(fā)音的字符到聲音的轉(zhuǎn)換的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及到文本到語(yǔ)音(TTS)的合成。對(duì)于用于合成字段的發(fā)音的文字到聲音的轉(zhuǎn)換,本發(fā)明尤為有用。
背景技術(shù):
通常,文本到語(yǔ)音(TTS)的轉(zhuǎn)換是指連貫的文本到語(yǔ)音的合成,它使電子裝置能夠接收輸入的文本字符串,并將字符串變換,表示為合成語(yǔ)音的形式。然而,需要該裝置能夠?qū)邮盏降臄?shù)目不確定的文本字符串進(jìn)行語(yǔ)音合成,這將帶來(lái)一個(gè)難題,即提供可理解的高質(zhì)量合成語(yǔ)音。在從文字到聲音的變換中存在的一個(gè)難題是,根據(jù)其它相鄰的文字及文字在需要合成的字段中位置,相同的文字或文字組合可能具有不同的聲音和不同的重音/強(qiáng)調(diào)音。
在本說(shuō)明書(shū)(包括權(quán)利要求)中,用術(shù)語(yǔ)“包含”、“包括”或類(lèi)似的術(shù)語(yǔ)表示非排他性的結(jié)論,因此,包含一系列單元的方法或裝置中并不僅僅包括那些單元,還可能包括其它為列出的單元。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于文字到語(yǔ)音合成的方法,該方法包括接收文本字符串,并從中選擇至少一個(gè)單詞;將單詞分解為子單詞,子單詞形成子單詞序列,子單詞中有至少一個(gè)子單詞包括至少兩個(gè)文字(letter);識(shí)別子單詞的音素;將音素連貫起來(lái)形成音素序列;和對(duì)音素序列執(zhí)行語(yǔ)音合成。
適當(dāng)?shù)?,通過(guò)對(duì)可能包括所述單詞的子單詞進(jìn)行分析,確定子單詞序列。
每一個(gè)可能的子單詞最好帶有關(guān)聯(lián)的預(yù)定權(quán)重。
適當(dāng)?shù)?,選擇能夠形成選定單詞的具有最大合成權(quán)重的子單詞,以產(chǎn)生子單詞序列。根據(jù)對(duì)直接非循環(huán)圖(Direct Acyclic Graph)的分析結(jié)果,確定適宜的子單詞序列。
適當(dāng)?shù)?,使用音素?biāo)志符表識(shí)別音素,音素標(biāo)識(shí)符表中包含對(duì)應(yīng)于至少一個(gè)上述子單詞的音素。
標(biāo)志符表中最好還包括位置相關(guān)指示器,用來(lái)表示單詞中子單詞的位置相關(guān)性。
音素權(quán)重還可能與相應(yīng)的位置相關(guān)指示器關(guān)聯(lián)。
附圖簡(jiǎn)要說(shuō)明為了使本發(fā)明更容易理解并付諸于實(shí)際,將用根據(jù)附圖示意的優(yōu)選實(shí)施例進(jìn)行參考,其中
圖1為根據(jù)本發(fā)明的電子裝置的示意框圖;圖2為表示用于文本到語(yǔ)音合成的方法的流程圖;圖3示意了直接非循環(huán)圖(DAG);圖4為映射表的一部分,映射表將符號(hào)映射至語(yǔ)音;圖5為音素標(biāo)識(shí)符表的一部分;和圖6為元音對(duì)表的一部分。
優(yōu)選實(shí)施例的具體說(shuō)明參見(jiàn)圖1,示意了以無(wú)線電話的形式存在的電子裝置100,其包括裝置處理器102,其可操作地通過(guò)總線103耦合至用戶界面104,典型的用戶界面104為觸摸屏或者是顯示屏及小鍵盤(pán)。電子裝置100中還有語(yǔ)言語(yǔ)料庫(kù)106、語(yǔ)音合成器110、非易失存儲(chǔ)器120、只讀存儲(chǔ)器118及無(wú)線通信模塊116,它們都可操作地通過(guò)總線103與處理器102耦合。語(yǔ)音合成器110上帶有輸出端,被耦合以驅(qū)動(dòng)揚(yáng)聲器112。語(yǔ)言語(yǔ)料庫(kù)116中包括表示單詞或音素的信息,還包括有關(guān)的經(jīng)采樣、數(shù)字化并處理后的通話波形PUW。換句話說(shuō),如下所述,使用非易失存儲(chǔ)器120(存儲(chǔ)器模塊)進(jìn)行文本到語(yǔ)音(TTS)的合成(文本由模塊116或其它裝置接收)。波形語(yǔ)言語(yǔ)料庫(kù)中還包括經(jīng)采樣及數(shù)字化的通話波形,其形式為音素及韻律特征的加重/加強(qiáng)。
正如本領(lǐng)域內(nèi)的技術(shù)人員將明了的,典型地,射頻通信單元116為帶有公共天線的組合接收機(jī)與發(fā)射機(jī)。射頻通信單元116中帶有通過(guò)射頻放大器耦合至天線的收發(fā)器。收發(fā)器還與組合的調(diào)制器/解調(diào)器耦合,組合調(diào)制器/解調(diào)器將通信單元116耦合至處理器102。在本實(shí)施例中,非易失存儲(chǔ)器112(存儲(chǔ)器模塊)還存儲(chǔ)用戶可編程的電話本數(shù)據(jù)庫(kù)Db,只讀存儲(chǔ)器118中還為裝置處理器102存儲(chǔ)操作代碼(OC)。
參見(jiàn)圖2,示意了用于文本到語(yǔ)音合成的方法200。在初始步驟210后,執(zhí)行從存儲(chǔ)器120接收文本字符串TS的步驟220。文本字符串TS是由模塊116或其它方式接收到的文本消息。步驟230的作用是從文本字符串TS中選擇至少一個(gè)單詞,分解步驟240的作用是將單詞分解為子單詞,子單詞形成子單詞序列,所述子單詞中至少一個(gè)包括至少兩個(gè)文字。識(shí)別步驟250的作用是為子單詞識(shí)別音素。連貫步驟260的作用是將音素連貫起來(lái)形成音素序列。通過(guò)對(duì)可能構(gòu)成單詞的子單詞進(jìn)行分析,確定相應(yīng)的子單詞序列。例如,暫時(shí)參見(jiàn)圖3中的直接非循環(huán)圖(DAG),如果選定的單詞為“mention”,則用能夠構(gòu)成選定單詞“mention”的全部可能的子單詞形成了直接非循環(huán)圖DAG。為每個(gè)子字單詞給出預(yù)定義的權(quán)重,例如,所示的子單詞“ment”、“men”及“tion”分別具有權(quán)重88、86和204。因此,連貫步驟206貫穿了DAG,并選擇形成所選定單詞的、具有最大合成(加和)權(quán)重的子單詞。在單詞為“mention”的情況下,將選擇子單詞“men”及“tion”。
在識(shí)別音素的步驟250中用到存儲(chǔ)于存儲(chǔ)器120中的兩個(gè)表,其中如圖4所示的一個(gè)表為映射表MT,將符號(hào)映射為音素。如圖所示,音素ae用符號(hào)@標(biāo)志,而音素th用符號(hào)D標(biāo)志。另外一個(gè)表是音素標(biāo)識(shí)符表PIT,圖5示意了它的一部分。音素標(biāo)識(shí)符表PIT中包含子單詞域;音素權(quán)重域;位置相關(guān)域(一個(gè)或多個(gè))或指示器;音素標(biāo)識(shí)符域(一個(gè)或多個(gè))。例如,在圖5中,第一行為aa 120 A C,其中aa為子單詞;120為音素權(quán)重,字母A為位置相關(guān),C為對(duì)應(yīng)與子單詞aa的音素指示器。位置相關(guān)被標(biāo)記為A表示全部位置的相關(guān);I表示子單詞在單詞前端的相關(guān);M表示子單詞在單詞中間的相關(guān);F表示子單詞在單詞末端的相關(guān)。因此,使用音素標(biāo)識(shí)符表PIT并根據(jù)子單詞在單詞中的位置,識(shí)別音素的步驟250產(chǎn)生作用。
音素權(quán)重及預(yù)定的DAC權(quán)重WT是從圖5中獲取的相同權(quán)重。確定這些權(quán)重后,如果選擇發(fā)生次數(shù)作為權(quán)重,則一個(gè)子字符串將具有比字符串自身更大的權(quán)重。因此,如果選擇產(chǎn)生的最大權(quán)重形成字段,則通常具有短詞素特征的字符串是更可取的。例如,單詞seeing將被分解為s|ee|in|g而不是s|ee|ing。但是總體而言,長(zhǎng)字符串及音素序列之間的關(guān)系更可信。為了確保具有長(zhǎng)詞素特征的字符串具有更高的優(yōu)先級(jí),考慮下面的方面-詞綴(affix)如果一個(gè)短字符串為長(zhǎng)字符串的前綴或后綴,將它的發(fā)生次數(shù)(occuring time)加在長(zhǎng)字符串上;但是不考慮其它子字符串。
-多義(ambiguity) 在某些情況下,一個(gè)具有詞素特征的字符串可以對(duì)應(yīng)多個(gè)音素字符串;例如,en的發(fā)音可以是ehn及axn。為了降低不確定性,使用字符串位置,例如字頭、字中及字尾。即使在這種情況下,一個(gè)具有詞素特征的字符串可以對(duì)應(yīng)多于一個(gè)音素字符串。為了解決這個(gè)問(wèn)題,選擇具有最大發(fā)生次數(shù)的音素字符串,并用下述公式計(jì)算比率rr=max{Nuk}ΣNuk]]>其中u為字符串索引,而k為位置索引。如果r<a(a為閾值,a=0.7),則排除這個(gè)具有詞素特征的字符串。例如,字尾的en的發(fā)音可以是ehn及axn,如果總次數(shù)(total time)為1000,如果與axn對(duì)應(yīng)的次數(shù)為800(當(dāng)然,這是最大次數(shù)),r=0.8。因此,可以將字尾en加到列表中。
-最小發(fā)生次數(shù)。還可以將最小發(fā)生次數(shù)min(min=9)設(shè)置為閾值。將發(fā)生次數(shù)少于這個(gè)閾值的字符串丟棄。
在這些約束下,可以以下面的方式為分配每個(gè)字符串權(quán)重Ws,Ws=101nNs,Ns為可調(diào)節(jié)的發(fā)生次數(shù)。
此后,方法200執(zhí)行步驟265,作用是在音素上分配表示元音的重音或強(qiáng)調(diào)音。這個(gè)步驟265從先前的步驟250識(shí)別出的相應(yīng)的識(shí)別音素中識(shí)別出元音。實(shí)際上,這個(gè)步驟265在存儲(chǔ)于存儲(chǔ)器120中的元音對(duì)表中搜索相對(duì)加強(qiáng)/減弱的音。圖6中示意了這個(gè)元音對(duì)表的一部分。例如,考慮單詞中能夠被識(shí)別為音素的3個(gè)元音,這些元音被識(shí)別為符號(hào)(從映射表MT中獲取)’ax;aa及ae。然后分析元音對(duì)表,當(dāng)’ax發(fā)生在aa之前時(shí),則指示a的重音權(quán)重為368,當(dāng)aa發(fā)生在’ax之前時(shí),則重音權(quán)重為354。因此,通過(guò)為’ax;aa及ae分析元音對(duì)表,可以得到如下分析結(jié)果符號(hào)ae指示的元音具有第一位(最大)的重音;符號(hào)’ax指示的元音具有第二位的重音;符號(hào)aa指示的元音不具有重音。實(shí)際上,通過(guò)使用訓(xùn)練詞典來(lái)確定重音權(quán)重。這個(gè)詞典的每個(gè)輸入都具有單詞的格式,以及它所對(duì)應(yīng)的發(fā)音,包括重音、音節(jié)分界以及字母到語(yǔ)音的分配。根據(jù)這個(gè)詞典,可以通過(guò)統(tǒng)計(jì)分析確定重音。在這點(diǎn)上,重音反映了元音之間的強(qiáng)/弱關(guān)系。為了產(chǎn)生需要的數(shù)據(jù),需要提前對(duì)詞典的全部輸入進(jìn)行統(tǒng)計(jì)分析。特別地,在單詞的范圍內(nèi),如果元音vi為加重,vj未加重,則為對(duì)(vi,vj)分配一點(diǎn),為對(duì)(vj,vi)分配一點(diǎn)零點(diǎn)。如果兩個(gè)都未加重,則點(diǎn)都是零。
然后執(zhí)行測(cè)試步驟270,判斷在文本字符串TS中是否還有其它多個(gè)單詞需要處理。如果是,則方法跳回至步驟230,否則執(zhí)行步驟280,對(duì)語(yǔ)音序列執(zhí)行語(yǔ)音識(shí)別。由合成器110執(zhí)行的語(yǔ)音識(shí)別對(duì)每個(gè)單詞的語(yǔ)音序列產(chǎn)生作用。然后,方法200終止于終止步驟290。
在執(zhí)行語(yǔ)音合成步驟280的過(guò)程中,還用適當(dāng)?shù)闹匾艏訌?qiáng)使用元音的重音(適當(dāng)?shù)牡谝?、第二或無(wú)重音),從而得到改善的合成語(yǔ)音質(zhì)量。
本發(fā)明的優(yōu)點(diǎn)是,根據(jù)其它相鄰字符及在合成字段中的位置,改善或至少減輕了聲音及元音的加重/加強(qiáng)。
詳細(xì)說(shuō)明中僅提供了優(yōu)選實(shí)施例,但并不因此限制本發(fā)明的范圍、應(yīng)用場(chǎng)合或結(jié)構(gòu)。而且,優(yōu)選實(shí)施例的詳細(xì)說(shuō)明為本領(lǐng)域內(nèi)的技術(shù)人員提供了可能實(shí)現(xiàn)本發(fā)明優(yōu)選實(shí)施例的說(shuō)明。需要理解的是,在不背離本發(fā)明及附加的權(quán)利要求的情況下,可以對(duì)其功能及元件的排列進(jìn)行不同的修改。
權(quán)利要求
1.一種用于文字到語(yǔ)音合成的方法,方法包括接收文本字符串,并從中選擇至少一個(gè)單詞;將所述單詞分解為子單詞,所述子單詞形成子單詞序列,所述子單詞中至少有一個(gè)包含至少兩個(gè)文字;為所述子單詞識(shí)別音素;將所述音素連貫起來(lái)形成音素序列;和對(duì)所述音素序列執(zhí)行語(yǔ)音合成。
2.根據(jù)權(quán)利要求1所述的用于文字到語(yǔ)音合成的方法,其中通過(guò)對(duì)可能構(gòu)成所述單詞的子單詞進(jìn)行分析,以確定所述的子單詞序列。
3.根據(jù)權(quán)利要求1所述的用于文字到語(yǔ)音合成的方法,其中每一個(gè)可能的子單詞最好帶有關(guān)聯(lián)的預(yù)定權(quán)重。
4.根據(jù)權(quán)利要求1所述的用于文字到語(yǔ)音合成的方法,其中,選擇能夠形成所述選定單詞的、具有最大合成權(quán)重的子單詞來(lái)產(chǎn)生子單詞序列。
5.根據(jù)權(quán)利要求4所述的用于文字到語(yǔ)音合成的方法,其中,根據(jù)對(duì)直接非循環(huán)圖的分析結(jié)果,適宜地確定所述子單詞序列。
6.根據(jù)權(quán)利要求1所述的用于文字到語(yǔ)音合成的方法,其中,所述識(shí)別因素使用一音素標(biāo)志符表,所述音素標(biāo)識(shí)符表中包含對(duì)應(yīng)于至少一個(gè)上述子單詞的音素。
7.根據(jù)權(quán)利要求6所述的用于文字到語(yǔ)音合成的方法,其中,所述標(biāo)志符表中還包括位置相關(guān)指示器,用來(lái)指示所述單詞中子單詞的位置相關(guān)性。
8.根據(jù)權(quán)利要求7所述的用于文字到語(yǔ)音合成的方法,其中,有與位置相關(guān)指示器關(guān)聯(lián)的音素權(quán)重。
全文摘要
本發(fā)明公開(kāi)了一種用于文字到語(yǔ)音合成的方法(200),該方法(200)包括接收(220)文本字符串,并從中選擇至少一個(gè)單詞。然后執(zhí)行的步驟為將單詞分解(240)為子單詞,子單詞形成子單詞序列,至少一個(gè)子單詞包含至少兩個(gè)文字。然后執(zhí)行的識(shí)別步驟(250),作用是為子單詞識(shí)別音素,步驟(260)將音素連貫起來(lái)形成音素序列。然后對(duì)音素序列執(zhí)行語(yǔ)音合成(280)。
文檔編號(hào)G10L13/08GK1604184SQ03132709
公開(kāi)日2005年4月6日 申請(qǐng)日期2003年9月29日 優(yōu)先權(quán)日2003年9月29日
發(fā)明者陳桂林, 黃建成 申請(qǐng)人:摩托羅拉公司