專利名稱:一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法
技術領域:
本發(fā)明涉及一種語音合成方法,具體涉及一種在使用計算機完成從文本到自然語音的轉換過程中,將文本與預錄語音智能匹配并輸出高質量語音的方法。
背景技術:
目前,在IVR、呼叫中心等電話語音系統(tǒng)中,業(yè)務流程往往需要同時使用預錄的提示音和合成語音。預錄提示音采用真人錄音,效果自然,并且能體現(xiàn)更多的情感風格,給用戶以親切感受。合成語音雖然清晰準確,但是在語氣和情感方面還與真人錄音存在一定的差距。在具體應用中,預錄語音用于播報語音服務系統(tǒng)中相對固定的內容,通常是進系統(tǒng)的問候語和系統(tǒng)操作方法的提示。合成語音用于播報內容經常變化、信息量大、需要即時合成的文本。預錄語音與合成語音結合,既可以滿足電話語音服務中人性化的要求,又實現(xiàn)了動態(tài)信息的即時播報。目前語音合成系統(tǒng)中預錄語音和合成語音相結合的策略是對用戶輸入的待合成文本,合成系統(tǒng)首先從字符層面上將該文本與提示音庫中各提示音的文本相比較,如果完全匹配,則輸出該提示音的音頻數(shù)據(jù);如果存在差異,則用語音合成引擎進行合成并輸出合成語音。
上述合成策略在實際應用中存在一定的缺陷,主要表現(xiàn)在1、由于合成文本與提示音文本必須在字符層面上完全匹配,用戶如果將提示音句子中某個音節(jié)修改為具有同樣拼音的其它漢字,則匹配不上。比如音庫中已經錄制了提示音“2、余額查詢”,當用戶輸入的合成文本為“二、余額查詢”,則不會匹配到前面那句提示音。
2、對于相同意義的信息,如果存在全半角、標點符號和其它符號的差別,就需要逐條單獨錄音。在實際應用中,提示音數(shù)量巨大,如果每一條提示音信息都要從字符層面考慮,錄制多條不同字符形式的提示語音,則會增加提示音庫制作工作量,延長音庫制作周期,同時也造成音庫大量冗余,造成資源浪費。
發(fā)明內容
本發(fā)明的目的就是提供一種語音合成過程中提高提示音利用效率的方法,用于改進提示音單純從字符層匹配在實際應用中的不足,有效利用提示音庫,做到既充分利用真人錄音的自然流暢,又減少音庫冗余,從而提高語音服務的品質。
本發(fā)明是通過以下技術方案實現(xiàn)的一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,包括根據(jù)預先錄制的語音數(shù)據(jù)制作合成系統(tǒng)需要的提示音資源,提示音資源的制作包括建立提示音索引文件,索引文件包括每個提示音的名稱、發(fā)音人、字符內容和語音數(shù)據(jù)的存放位置,然后用戶向合成系統(tǒng)提供待合成文本信息,合成系統(tǒng)經字符層匹配,待合成文本的字符內容與提示音字符內容必須完全一致后即可輸出合成語音數(shù)據(jù),在運用合成系統(tǒng)進行文本合成的過程中,本發(fā)明還需要經過拼音層匹配和提示音自動構建的智能分析處理;索引文件還包括有拼音信息和提示音自動構建音庫的語音數(shù)據(jù)存放路徑。
一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,在合成系統(tǒng)進行文本的合成過程中,首先進行字符層匹配,若字符層匹配沒有成功,則進行拼音層匹配,若拼音層匹配也沒有成功,則進行自動構建的智能分析處理。
一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,所述的字符層匹配,以下三種情況中的任意一種或兩種或三種情況出現(xiàn)也視為合成文本和提示音匹配成功(1)字符內容存在全半角的差異;(2)字符中間存在符號的差異,包括單引號、雙引號、中劃線、反斜線、書名號;(3)字符尾存在符號的差異,包括句號、感嘆號、問號、分號,逗號。
一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,所述的拼音層匹配是指通過檢索提示音索引文件,判斷待合成文本的拼音信息是否與某個提示音的的拼音信息完全相同,只有完全相同,才認為匹配成功,如果拼音層匹配成功,則根據(jù)提示音索引文件中提供的語音數(shù)據(jù)存放位置,提取語音數(shù)據(jù)進行合成播放。
一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,所述的提示音自動構建音庫的制作是通過工具,提取提示音資源的語音參數(shù)信息,并以二進制文件方式存儲起來。
一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,如果字符層、拼音層匹配都沒有成功,合成系統(tǒng)根據(jù)待合成文本的信息,按照大語料庫合成算法,從提示音自動構建音庫中挑選語音基本單元進行波形拼接,最終輸出語音數(shù)據(jù)進行播放。
一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,所述的語音基本單元為詞語。
本發(fā)明的有益效果在于首先,提示音字符層匹配從原來的所有字符完全一模一樣擴展到可以忽略全角半角、句末標點和其它句中符號;提示音拼音層匹配可以實現(xiàn)同音異符的文本;自動構建更是實現(xiàn)了提示音在詞語一級的匹配和構建,這些改進有效增加了提示音匹配的成功率,減少用戶由于對文本輕微的改動而需要再次錄制提示音的代價,大大降低了提示音庫制作的工作量。
其次,語音合成系統(tǒng)在管理提示語音的過程中,采用科學算法保證提示語音和合成語音的自然過渡銜接,在合成系統(tǒng)內部自動處理語音的格式轉化,并且提供了可視化工具幫助用戶解決實際應用中的特殊要求,比如調整提示語音與合成語音的能量對比等。這些機制更好地滿足了實際應用的靈活度和個性化要求。
另外,本系統(tǒng)還提供面向行業(yè)的定制提示音庫,滿足不同行業(yè)提示音應用的需要。
附圖為提示音智能匹配工作流程框圖。
具體實施例方式
參見附圖。
首先制作提示音資源并放到合成系統(tǒng)資源中,然后用戶在語音合成系統(tǒng)中啟用提示音功能,當輸入合成文本后,合成系統(tǒng)會根據(jù)文本的特性,與提示音庫中的提示音資源進行智能匹配,包含三個層次的匹配過程第一層是字符層匹配;第二層稱作拼音層匹配,解決字符不同,但是拼音相同的提示音合成問題;第三層匹配稱為提示音自動構建,解決大量提示音錄制完畢后,怎樣有效利用已有資源的問題。當任何一層匹配到時,就會調用相應的提示音語音數(shù)據(jù)進行拼接,從而輸出語音數(shù)據(jù)。
提示音智能匹配的實現(xiàn)步驟包括四個步驟提示音庫資源制作、字符層匹配、拼音層匹配和自動構建。
第一步,資源制作。
在提示音智能匹配過程中,涉及到三個資源,具體為(1)提示音索引文件,用以記錄所有錄制的提示音條目,包括每個提示音的名稱、發(fā)音人、字符內容、拼音信息、語音數(shù)據(jù)(指自動構建音庫或打包資源)的存放路徑等。
(2)提示音自動構建音庫,語音技術專業(yè)人員通過資源制作工具,提取提示音的語音參數(shù)信息,并以二進制文件方式存儲起來,形成提示音音庫;又由于這個過程是完全機器自動化,所以稱這個音庫為提示音自動構建音庫。
(3)提示音打包資源,有一些提示音數(shù)據(jù),由于時間或者其它原因沒有制作成自動構建音庫,但這些提示音也需要以一種資源方式利用起來,這時用戶就可以使用語音技術專業(yè)人員提供的工具將提示音語音數(shù)據(jù)(如wav等)打包,形成提示音打包資源;注意打包資源中的提示音只能用做字符層和拼音層匹配。
第二步,字符層匹配。
用戶在合成系統(tǒng)中輸入合成文本后,合成系統(tǒng)首先進行文本分析,包括分句、字符處理等操作,在文本分析后,系統(tǒng)就可以進行第一層匹配字符層匹配。
字符層匹配的具體實現(xiàn)流程為根據(jù)當前合成的文本內容,從字符層面上比較文本的字符內容是否和某個提示音的字符內容相同,這里的相同包括以下幾種情況(1)字符內容完全一樣;(2)字符內容存在全半角的差異;(3)字符中間存在符號的差異;包括‘(單引號)、“”(雙引號)、-(中劃線)、/(反斜線)、<>(書名號);(4)字符尾存在符號的差異,包括句號、感嘆號、問號、分號,逗號。
舉例假設有提示音“本獎勵辦法最終解釋權屬招商銀行?!?,用戶輸入以下幾種改動后的文本,仍然會匹配到這句提示音(1)本獎勵辦法/最終解釋權/屬招商銀行。
(2)本獎勵辦法最終解釋權屬″招商銀行″。
(3)本獎勵辦法最終解釋權屬<招商銀行>。
(4)本獎勵辦法---最終解釋權屬招商銀行?如果字符層匹配到,就會到提示音索引文件中獲取其語音數(shù)據(jù)路徑,根據(jù)路徑從提示音自動構建庫或者提示音打包資源中提取語音數(shù)據(jù)進行播放。
第三步,拼音層匹配。
如果合成文本第一層匹配失敗,系統(tǒng)就會對合成文本進行韻律分析,確定合成文本的拼音信息(中文指漢語拼音,英文指音標),有了拼音信息,我們就可以進行第二層匹配拼音層匹配。
拼音層匹配條件只有當合成文本的拼音信息和某個提示音的拼音信息完全一致,才認為匹配成功。比如(1)提示音“按井號鍵結束輸入”,用戶可以輸入“按#號鍵結束輸入”來匹配;(2)提示音“新密碼長度小于六位”,用戶可以輸入“新密碼長度小于6位”來匹配;(5)提示音“請輸入十六位卡號”,用戶可以輸入“請輸入16位卡號”號匹配;(6)提示音“三分之一倉委托”,用戶可以輸入“1/3倉委托”來匹配。
(7)提示音“中科大訊飛”,用戶可以輸入“中科大迅飛”來匹配。
如果拼音層匹配成功,合成系統(tǒng)就會到提示音索引文件中獲取其語音數(shù)據(jù)路徑,根據(jù)路徑從提示音自動構建庫或者提示音打包資源中提取語音數(shù)據(jù)進行播放。
第四步,自動構建。
如果字符層匹配和拼音層匹配都失敗,就需要進行第三層智能匹配自動構建匹配。所謂自動構建匹配,就是通過提示音音庫中的語音基本單元進行語音的拼接,并保證拼接效果比合成語音更好,接近自然語音。
提示音自動構建實現(xiàn)方式如下
合成系統(tǒng)根據(jù)待合成文本的信息,按照大語料庫合成算法,從提示音自動構建音庫中挑選語音基本單元進行波形拼接,最終輸出語音數(shù)據(jù)。注意為了保證拼接效果,要求語音基本單元為詞語,而不是音節(jié)。
自動構建匹配和前兩層匹配的區(qū)別在于前兩層匹配的單位是句子,也就是說,如果匹配成功,直接取相應提示音句子的聲音數(shù)據(jù)播放出來;而自動構建匹配的單位是詞語,詞語匹配成功后,需要將詞語拼接成句子,然后再播放。這樣用戶就不需要錄制更多的提示音,降低了用戶錄制語音的代價并有效利用已有提示音資源。
權利要求
1.一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,包括根據(jù)預先錄制的語音數(shù)據(jù)制作合成系統(tǒng)需要的提示音資源,提示音資源的制作包括建立提示音索引文件,索引文件包括每個提示音的名稱、發(fā)音人、字符內容和語音數(shù)據(jù)的存放位置,然后用戶向合成系統(tǒng)提供待合成文本信息,合成系統(tǒng)經字符層匹配,待合成文本的字符內容與提示音字符內容必須完全一致后即可輸出合成語音數(shù)據(jù),其特征在于運用合成系統(tǒng)進行文本合成的過程中,還需要經過拼音層匹配和提示音自動構建的智能分析處理;索引文件還包括有拼音信息和提示音自動構建音庫的語音數(shù)據(jù)存放路徑。
2.根據(jù)權利要求1所述的一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,其特征在于在合成系統(tǒng)進行文本的合成過程中,首先進行字符層匹配,若字符層匹配沒有成功,則進行拼音層匹配,若拼音層匹配也沒有成功,則進行自動構建的智能分析處理。
3.根據(jù)權利要求1所述的一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,其特征在于所述的字符層匹配,以下三種情況中的任意一種或兩種或三種情況出現(xiàn)也視為合成文本和提示音匹配成功(1)字符內容存在全半角的差異;(2)字符中間存在符號的差異,包括單引號、雙引號、中劃線、反斜線、書名號;(3)字符尾存在符號的差異,包括句號、感嘆號、問號、分號,逗號。
4.根據(jù)權利要求1所述的一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,其特征在于所述的拼音層匹配是指通過檢索提示音索引文件,判斷待合成文本的拼音信息是否與某個提示音的的拼音信息完全相同,只有完全相同,才認為匹配成功,如果拼音層匹配成功,則根據(jù)提示音索引文件中提供的語音數(shù)據(jù)存放位置,提取語音數(shù)據(jù)進行合成播放。
5.根據(jù)權利要求1所述的一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,其特征在于所述的提示音自動構建音庫的制作是通過工具,提取提示音資源的語音參數(shù)信息,并以二進制文件方式存儲起來。
6.根據(jù)權利要求1或5所述的一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,其特征在于如果字符層、拼音層匹配都沒有成功,合成系統(tǒng)根據(jù)待合成文本的信息,按照大語料庫合成算法,從提示音自動構建音庫中挑選語音基本單元進行波形拼接,最終輸出語音數(shù)據(jù)進行播放。
7.根據(jù)權利要求6所述的一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,其特征在于所述的語音基本單元為詞語。
全文摘要
本發(fā)明公開了一種在語音合成系統(tǒng)中提升提示音匹配效果的智能方法,實現(xiàn)了合成文本與提示音資源智能匹配,從而獲得高質量語音。本發(fā)明包括建立提示音庫資源及資源索引,在運用語音合成系統(tǒng)進行文本合成的過程中,經過提示音字符層匹配、拼音層匹配和自動構建,實現(xiàn)被合成文本與提示音資源的智能匹配,從而完成從文本到提示音的轉換。本發(fā)明在語音合成過程中提高了提示音的利用效率,改進了提示音單純從字符層匹配在實際應用中的不足,有效利用提示音庫,做到既充分利用真人錄音的自然流暢,又減少音庫冗余,從而提高語音服務的品質。
文檔編號G10L13/08GK1945692SQ20061009667
公開日2007年4月11日 申請日期2006年10月16日 優(yōu)先權日2006年10月16日
發(fā)明者王仁華, 劉慶峰, 吳曉如, 嚴峻, 趙志偉, 熊厚余, 李文兵, 于繼棟 申請人:安徽中科大訊飛信息科技有限公司