亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音合成中的語音調(diào)節(jié)的制作方法

文檔序號:2825151閱讀:200來源:國知局
專利名稱:語音合成中的語音調(diào)節(jié)的制作方法
技術(shù)領(lǐng)域
本發(fā)明總體涉及語音信號處理,且更具體地,涉及語音合成。
背景技術(shù)
語音合成是通過人工方法從文本產(chǎn)生語音。例如,文本至語音(TTS)系統(tǒng)從文本合成語音,以向傳統(tǒng)計(jì)算機(jī)到人可視輸出設(shè)備,例如計(jì)算機(jī)監(jiān)視器或顯示器提供替換物。存在多種TTS合成的變體,包括共振峰TTS合成以及拼接調(diào)整TTS合成。共振峰TTS合成不輸出記錄的人類語音,而是輸出計(jì)算機(jī)產(chǎn)生的音頻,其聽起來是人工的或機(jī)器人的。在拼接調(diào)整TTS合成中,存儲(chǔ)的人類語音段被拼接,并輸出以產(chǎn)生聽起來更加平滑的,更加自然的語首。TTS系統(tǒng)可以包括下面的基本元素。原始文本源包括將被合成到語音的詞語、數(shù)字、符號、縮略語和/或標(biāo)點(diǎn)。語音數(shù)據(jù)庫包括來自一個(gè)或多個(gè)人的預(yù)先記錄的語音。預(yù)處理器將原始文本轉(zhuǎn)換為與書寫的詞語等同的輸出。合成引擎按照發(fā)音轉(zhuǎn)錄預(yù)處理器輸出, 并且將預(yù)處理器輸出轉(zhuǎn)換為適當(dāng)?shù)恼Z言單元,例如,句子、從句和/或短語。單元選擇器從語音數(shù)據(jù)庫選擇與來自合成引擎的語言單元最好地相應(yīng)的語音單元。聲學(xué)接口將選擇的語音單元轉(zhuǎn)換為音頻信號,并且揚(yáng)聲器將語音信號轉(zhuǎn)換為可聽語音。TTS合成遇到的一個(gè)問題是一些應(yīng)用會(huì)使用從具有明顯不同聲音的不同人記錄的語音。例如,TTS使能的車輛導(dǎo)航系統(tǒng)使用具有多個(gè)部分語法的聲音導(dǎo)航,可包括定向調(diào)動(dòng)話語(例如,“執(zhí)行合法的到…的掉頭”)和街道名稱話語(例如,“North Telegraph Road”)。 調(diào)動(dòng)話語可以由導(dǎo)航服務(wù)提供者的第一發(fā)話者產(chǎn)生,街道名稱話語可以由地圖數(shù)據(jù)提供者的第二發(fā)話者產(chǎn)生。當(dāng)在語音導(dǎo)航期間將話語一起播放時(shí),組合的話語會(huì)使用戶聽起來不舒服。例如,用戶可能察覺到從調(diào)動(dòng)話語到街道名稱話語的轉(zhuǎn)變,例如,由于發(fā)話者之間語調(diào)的差異。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一方面,提供一種語音合成的方法。所述方法包括步驟(a)在文本至語音系統(tǒng)中接收第一文本輸入和第二文本輸入;(b)使用所述系統(tǒng)的處理器將第一文本輸入和第二文本輸入處理為分別與第一說話者和第二說話者的所存儲(chǔ)語音相應(yīng)的各自的第一語音輸出和第二語音輸出;以及(c)使第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸出。根據(jù)本發(fā)明的另一方面,提供一種計(jì)算機(jī)程序產(chǎn)品,其包括在計(jì)算機(jī)可讀介質(zhì)上并且由文本至語音系統(tǒng)的計(jì)算機(jī)處理器可執(zhí)行以使系統(tǒng)實(shí)施上述步驟的指令。根據(jù)本發(fā)明的額外方面,提供一種語音合成系統(tǒng),包括第一文本源;第二文本源;第一語音數(shù)據(jù)庫,包括預(yù)先記錄的來自第一說話者的語音;第二語音數(shù)據(jù)庫,包括預(yù)先記錄的來自第二說話者的語音;和預(yù)處理器,將文本轉(zhuǎn)換成能夠合成的輸出。所述系統(tǒng)還包括處理器,將來自第一文本源和第二文本源的第一文本輸入和第二文本輸入轉(zhuǎn)換為分別與第一說話者和第二說話者的預(yù)先記錄的語音相應(yīng)的各自的第一語音輸出和第二語音輸出;以及后處理器,使第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸出。本發(fā)明還提供如下方案
1. 一種語音合成的方法,其包括步驟
(a)在文本至語音系統(tǒng)中接收第一文本輸入和第二文本輸入;
(b)使用所述系統(tǒng)的處理器將第一文本輸入和第二文本輸入處理為與分別來自第一說話者和第二說話者的所存儲(chǔ)語音相應(yīng)的各自的第一語音輸出和第二語音輸出;以及
(c)使第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸出。2.如方案1所述的方法,還包括步驟
(d)輸出第一說話者的第一語音輸出;以及
(e)輸出第二說話者的經(jīng)調(diào)解的第二語音輸出。3.如方案2所述的方法,其中,所述第一語音輸出是導(dǎo)航指令,而所述第二語音輸出是導(dǎo)航變量。4.如方案3所述的方法,其中,所述導(dǎo)航指令是定向調(diào)動(dòng),而所述導(dǎo)航變量是街道名稱。5.如方案2所述的方法,還包括步驟(f)修改結(jié)合處理來自第二說話者的所存儲(chǔ)語音使用的模型。6.如方案5所述的方法,其中,步驟(f)包括修改隱馬爾可夫模型。7.如方案1所述的方法,其中,步驟(C)包括
(cl)對于第一說話者的至少一個(gè)說話者特定特性分析第一語音輸出的聲學(xué)特征; (c2)基于第一說話者的所述至少一個(gè)說話者特定特性,調(diào)整用于濾波來自第二語音輸出的聲學(xué)特征的聲學(xué)特征濾波器;以及
(c3)使用步驟(U)中調(diào)整的濾波器濾波來自第二語音輸出的聲學(xué)特征。8.如方案7所述的方法,其中,步驟(C; )包括調(diào)整梅爾頻率倒頻譜濾波器的至少一個(gè)參數(shù),數(shù)包括濾波器組中心頻率、濾波器組截止頻率、濾波器組帶寬、濾波器組形狀或?yàn)V波器增益的至少一個(gè)。9.如方案7所述的方法,其中,所述至少一個(gè)說話者特定特性包括聲道或鼻腔相關(guān)特性中的至少一個(gè)。10.如方案9所述的方法,其中,所述特性包括長度、形狀、轉(zhuǎn)換函數(shù)、格式或音調(diào)頻率中的至少一個(gè)。11. 一種計(jì)算機(jī)程序產(chǎn)品,其包括在計(jì)算機(jī)可讀介質(zhì)上且由語音合成系統(tǒng)的計(jì)算機(jī)處理器可執(zhí)行以使系統(tǒng)實(shí)施下述步驟的指令,所述步驟包括
(a)在文本至語音系統(tǒng)中接收第一文本輸入和第二文本輸入;
(b)使用所述系統(tǒng)的處理器將第一文本輸入和第二文本輸入處理為與分別來自第一說話者和第二說話者的所存儲(chǔ)語音相應(yīng)的各自的第一語音輸出和第二語音輸出;以及
(c)使第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸出。12.如方案11所述的產(chǎn)品,其中,步驟(c)包括
(cl)對于第一說話者的至少一個(gè)說話者特定特性分析第一語音輸出的聲學(xué)特征;(c2)基于第一說話者的所述至少一個(gè)說話者特定特性,調(diào)整用于濾波來自第二語音輸出的聲學(xué)特征的聲學(xué)特征濾波器;以及
(c3)使用步驟(U)中調(diào)整的濾波器濾波來自第二語音輸出的聲學(xué)特征。13. 一種語音合成系統(tǒng),其包括 第一文本源;
第二文本源;
第一語音數(shù)據(jù)庫,包括預(yù)先記錄的來自第一說話者的語音; 第二語音數(shù)據(jù)庫,包括預(yù)先記錄的來自第二說話者的語音; 預(yù)處理器,其將文本轉(zhuǎn)換成能夠合成的輸出;
處理器,其將來自第一文本源和第二文本源的第一文本輸入和第二文本輸入轉(zhuǎn)換為與分別來自第一說話者和第二說話者的預(yù)先記錄的語音相應(yīng)的各自的第一語音輸出和第二語音輸出;以及
后處理器,其使第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸
出ο14.如方案13所述的系統(tǒng),還包括
聲學(xué)接口,其將語音輸出轉(zhuǎn)換為音頻信號;以及揚(yáng)聲器,其將音頻信號轉(zhuǎn)換為可聽語音。15.如方案14所述的系統(tǒng),其中,所述揚(yáng)聲器輸出第一說話者的第一語音輸出, 并輸出經(jīng)調(diào)節(jié)的第二說話者的第二語音輸出。16.如方案13所述的系統(tǒng),其中,所述后處理器修改結(jié)合處理來自第二說話者的所存儲(chǔ)的語音使用的模型。17.如方案13所述的系統(tǒng),其中,所述后處理器對于第一說話者的至少一個(gè)說話者特定特性分析第一語音輸出的聲學(xué)特征,基于第一說話者的所述至少一個(gè)說話者特定特性調(diào)整用于濾波來自第二語音輸出的聲學(xué)特征的聲學(xué)特征濾波器,以及使用調(diào)整的濾波器濾波來自第二語音輸出的聲學(xué)特征。18.如方案17所述的系統(tǒng),其中,所述后處理器調(diào)整梅爾頻率倒頻譜濾波器的至少一個(gè)參數(shù),包括濾波器組中心頻率、濾波器組截止頻率、濾波器組帶寬、濾波器組形狀或?yàn)V波器增益的至少一個(gè)。


下面將結(jié)合附圖描述本發(fā)明的一個(gè)或多個(gè)優(yōu)選的示例性實(shí)施例,在附圖中,相似的標(biāo)識表示相似的元件,并且其中
圖1是描繪能夠利用在此公開的方法的通信系統(tǒng)的示例性實(shí)施例的框圖; 圖2是示出能夠與圖1的系統(tǒng)一起使用且用于實(shí)施語音合成的示例性方法的TTS系統(tǒng)的示例性實(shí)施例的框圖;以及
圖3是示出TTS方法的示例性實(shí)施例的流程圖。
具體實(shí)施例方式下面的描述描繪了示例通信系統(tǒng)、能夠與通信系統(tǒng)一起使用的示例文本至語音(TTS)系統(tǒng)以及能夠與上述系統(tǒng)中的一個(gè)或兩個(gè)一起使用的一個(gè)或多個(gè)示例方法。下述方法可由車輛遠(yuǎn)程信息處理單元(VTU)使用作為合成語言以便輸出到VTU的用戶的一部分。 盡管下述方法是在程序執(zhí)行或運(yùn)行期間可以在導(dǎo)航背景中被實(shí)施用于VTU,但是將理解,它們可以用于任何類型的TTS系統(tǒng)和其他類型TTS系統(tǒng),以及用于除了導(dǎo)航背景之外的背景。 在一個(gè)特定示例中,所述方法不僅可以用在程序運(yùn)行期間,而且可以或替代地在用戶激活系統(tǒng)或程序使用之前在訓(xùn)練TTS系統(tǒng)中使用。通信系統(tǒng)
參照圖1,示出包括移動(dòng)車輛通信系統(tǒng)10且可以用于實(shí)施在此公開的方法的示例性操作環(huán)境。通信系統(tǒng)10大體包括車輛12、一個(gè)或多個(gè)無線載波系統(tǒng)14、地面通信網(wǎng)絡(luò)16、計(jì)算機(jī)18和呼叫中心20。應(yīng)該理解,公開的方法可以與任何數(shù)量的不同系統(tǒng)一起使用,并且不被具體地限制到在此示出的操作環(huán)境。另外,系統(tǒng)10的架構(gòu)、結(jié)構(gòu)、設(shè)置和操作以及其各個(gè)組件在本領(lǐng)域通常是公知的。因此,下面的段落僅提供一種這樣的示例性系統(tǒng)10的簡要概述,然而,在此沒有示出的其他系統(tǒng)也可以采用所公開的方法。在示出的實(shí)施例中將車輛12描述為客車,但是應(yīng)該理解,也可以使用任何其他交通工具,包括摩托車、卡車、運(yùn)動(dòng)型多功能車(SUV)、休閑車(RV)、船只、航空器等。圖1中大體示出一些車輛電子設(shè)備觀,其包括遠(yuǎn)程信息處理單元30、麥克風(fēng)32、一個(gè)或多個(gè)按鈕或其他控制輸入;34、音頻系統(tǒng)36、可視顯示器38和GPS模塊40以及多個(gè)車輛系統(tǒng)模塊(VSM) 42。這些設(shè)備的一些可以直接連接到遠(yuǎn)程信息處理單元,例如,麥克風(fēng)32和(多個(gè))按鈕34, 而其他使用一個(gè)或多個(gè)網(wǎng)絡(luò)連接諸如通信總線44或娛樂總線46間接連接到遠(yuǎn)程信息處理單元。適當(dāng)網(wǎng)絡(luò)連接的示例包括控制器區(qū)域網(wǎng)絡(luò)(CAN)、媒體導(dǎo)向系統(tǒng)傳輸(MOST)、本地互連網(wǎng)絡(luò)(LIN)、局域網(wǎng)(LAN)和其他適當(dāng)連接,諸如符合已知IS0、SAE和IEEE標(biāo)準(zhǔn)和規(guī)范的以太網(wǎng)或其他,僅列出一些。遠(yuǎn)程信息處理單元30是OEM安裝的設(shè)備,其能夠通過無線載波系統(tǒng)14和通過無線聯(lián)網(wǎng)進(jìn)行無線語音和/或數(shù)據(jù)通信,使得車輛能夠與呼叫中心20、其他遠(yuǎn)程信息處理使能的車輛或一些其他實(shí)體或設(shè)備進(jìn)行通信。遠(yuǎn)程信息處理單元優(yōu)選地使用無線電傳輸來建立與無線載波系統(tǒng)14的通信信道(語音信道和/或數(shù)據(jù)信道),使得能夠通過信道發(fā)送和接收語音和/或數(shù)據(jù)傳輸。通過提供語音和數(shù)據(jù)通信,遠(yuǎn)程信息處理單元30使得車輛能夠提供多種不同服務(wù),包括與導(dǎo)航、電話、緊急援助、診斷、信息娛樂等相關(guān)的服務(wù)??梢允褂帽绢I(lǐng)域中已知的技術(shù)通過數(shù)據(jù)連接諸如通過數(shù)據(jù)信道的包數(shù)據(jù)傳輸或者通過語音信道發(fā)送數(shù)據(jù)。對于包括語音通信(例如,在呼叫中心20使用在線指導(dǎo)或語音響應(yīng)單元)和數(shù)據(jù)通信 (例如,以向呼叫中心20提供GPS位置數(shù)據(jù)或車輛診斷數(shù)據(jù))的組合服務(wù),系統(tǒng)可以使用通過語音信道的單獨(dú)呼叫以及按照需要在語音信道上進(jìn)行語音和數(shù)據(jù)傳輸之間的切換,并且這可以使用本領(lǐng)域技術(shù)人員公知的技術(shù)來實(shí)施。根據(jù)一個(gè)實(shí)施例,遠(yuǎn)程信息處理單元30使用根據(jù)GSM或CDMA標(biāo)準(zhǔn)的蜂窩通信,因此包括用于語音通信(例如,免提通話)的標(biāo)準(zhǔn)蜂窩芯片組50、用于數(shù)據(jù)通信的無線調(diào)制解調(diào)器、電子處理設(shè)備52、一個(gè)或多個(gè)數(shù)字存儲(chǔ)設(shè)備M和雙天線56。應(yīng)該理解,可以通過存儲(chǔ)在遠(yuǎn)程信息處理單元中且通過處理器52執(zhí)行的軟件實(shí)現(xiàn)調(diào)制解調(diào)器,或者調(diào)制解調(diào)器可以是位于遠(yuǎn)程信息處理單元30內(nèi)部或外部的分立硬件組件。調(diào)制解調(diào)器可以使用任何數(shù)量的不同標(biāo)準(zhǔn)和協(xié)議諸如EVD0、CDMA、GPRS和EDGE來運(yùn)行。也可以使用遠(yuǎn)程信息處理單元30實(shí)施車輛與其他聯(lián)網(wǎng)的設(shè)備之間的無線聯(lián)網(wǎng)。為此,遠(yuǎn)程信息處理單元30可以被配置為根據(jù)一個(gè)或多個(gè)無線協(xié)議諸如IEEE 802. 11協(xié)議、WiMAX或藍(lán)牙進(jìn)行無線通信。當(dāng)用于諸如TCP/IP的分組交換數(shù)據(jù)通信時(shí),遠(yuǎn)程信息處理單元可以配置有靜態(tài)IP地址或者能夠設(shè)置為自動(dòng)接收來自網(wǎng)絡(luò)上的另一設(shè)備諸如路由器或者來自網(wǎng)絡(luò)地址服務(wù)器的所分配的IP地址。處理器52可以是能夠處理電子指令的任何類型的設(shè)備,包括微處理器、微控制器、主處理器、控制器、車輛通信處理器和專用集成電路(ASIC)。其可以是僅用于遠(yuǎn)程信息處理單元30的專用處理器,或者可以與其他車輛系統(tǒng)共享。處理器52執(zhí)行各種類型的數(shù)字存儲(chǔ)指令,諸如存儲(chǔ)器M中存儲(chǔ)的軟件或固件程序,其使遠(yuǎn)程信息處理單元能夠提供多種類型的服務(wù)。例如,處理器52能夠執(zhí)行程序或處理數(shù)據(jù),以實(shí)施在此討論的方法的至少一部分。遠(yuǎn)程信息處理單元30可以用于提供多元化的車輛服務(wù),包括來自車輛的無線通信和/或到車輛的無線通信。這些服務(wù)包括結(jié)合基于GPS的車輛導(dǎo)航模塊40提供的轉(zhuǎn)向和其他導(dǎo)航相關(guān)服務(wù);結(jié)合一個(gè)或多個(gè)碰撞傳感器接口模塊諸如車身控制模塊(未示出)提供的安全氣囊展開通知和其他緊急或路邊援助相關(guān)的服務(wù);使用一個(gè)或多個(gè)診斷模塊的診斷報(bào)告;以及娛樂信息相關(guān)服務(wù),其中,音樂、網(wǎng)頁、電影、電視節(jié)目、視頻游戲和/或其他信息通過娛樂信息模塊(未示出)下載且存儲(chǔ)用于當(dāng)前或以后播放。上述列出的服務(wù)不是遠(yuǎn)程信息處理單元30的所有功能的詳盡列表,而是僅是遠(yuǎn)程信息處理單元30能夠提供的一些服務(wù)的列舉。此外,應(yīng)該理解,上述模塊的至少一部分可以按照所存儲(chǔ)的內(nèi)部于或外部于遠(yuǎn)程信息處理單元30的軟件指令的形式來實(shí)施,它們可以是位于遠(yuǎn)程信息處理單元30內(nèi)部或外部的硬件組件,或者它們可以彼此之間或者與車輛內(nèi)的其他系統(tǒng)集成和/或共享,僅闡述了幾種可能性。在將模塊實(shí)施為位于遠(yuǎn)程信息處理單元30外部的VSM 42的情況下, 它們可以使用車輛總線44以與遠(yuǎn)程信息處理單元交換數(shù)據(jù)和命令。GPS模塊40從GPS衛(wèi)星的星座60接收無線電信號。根據(jù)這些信號,模塊40可以確定車輛位置,用于向車輛駕駛員提供導(dǎo)航和其他位置相關(guān)服務(wù)。導(dǎo)航信息可以在顯示器 38 (或者車輛內(nèi)的其他顯示器)上呈現(xiàn),或者可以口頭表示,諸如當(dāng)提供轉(zhuǎn)向?qū)Ш綍r(shí)這樣做。 可以使用專用的車輛中設(shè)置的導(dǎo)航模塊(其可以是GPS模塊40的一部分)提供導(dǎo)航服務(wù), 或者可以通過遠(yuǎn)程信息處理單元30完成部分或全部導(dǎo)航服務(wù),其中,為了向車輛提供導(dǎo)航地圖、地圖標(biāo)注(感興趣的點(diǎn)、餐館等)、路線計(jì)算等,向遠(yuǎn)程位置發(fā)送位置信息。為了其他目的,諸如車隊(duì)管理,位置信息可以提供給呼叫中心20或其他遠(yuǎn)程計(jì)算機(jī)系統(tǒng),諸如計(jì)算機(jī) 18。另外,可以通過遠(yuǎn)程信息處理單元30將新的或更新的地圖數(shù)據(jù)從呼叫中心20下載到 GPS模塊40。除了音頻系統(tǒng)36和GPS模塊40之外,車輛12可以包括電子硬件組件形式的其他車輛系統(tǒng)模塊(VSM) 42,其位于車輛內(nèi)且通常從一個(gè)或多個(gè)傳感器接收輸入且使用感測的輸入執(zhí)行診斷、監(jiān)控、控制、報(bào)告和/或其他功能。優(yōu)選地,每個(gè)VSM 42通過通信總線44 連接到其他VSM以及連接到遠(yuǎn)程信息處理單元30,并且可以被編程以運(yùn)行車輛系統(tǒng)和子系統(tǒng)診斷測試。作為示例,一個(gè)VSM 42可以是引擎控制模塊(ECM),其控制引擎操作的各個(gè)方面,諸如燃料點(diǎn)火和點(diǎn)火正時(shí),另一 VSM 42可以是動(dòng)力系統(tǒng)控制模塊,其調(diào)整車輛動(dòng)力系統(tǒng)的一個(gè)或多個(gè)組件的操作,而另一 VSM 42可以是車身控制模塊,其管理車輛內(nèi)的各個(gè)電子組件,例如,車輛的電動(dòng)門鎖和前燈。根據(jù)一個(gè)實(shí)施例,引擎控制模塊配備有車載診斷 (OBD)特征件,其提供諸如從包括車輛排放傳感器的各種傳感器接收到的各種實(shí)時(shí)數(shù)據(jù),并且提供標(biāo)準(zhǔn)化的一系列診斷故障碼(DTC),其允許技術(shù)人員快速識別和修理車輛內(nèi)的故障。 如本領(lǐng)域的技術(shù)人員所知,上述VSM僅是可以在車輛12中使用的一些模塊的示例,許多其他模塊也是可行的。車輛電子設(shè)備觀還包括多個(gè)車輛用戶接口,其向車輛占用者提供用于提供和/或接收信息的裝置,包括麥克風(fēng)32、(多個(gè))按鈕34、音頻系統(tǒng)36和可視顯示器38。如在此使用,術(shù)語“車輛用戶接口,,廣泛地包括任何適當(dāng)形式的電子設(shè)備,包括硬件和軟件組件,其位于車輛上且使車輛用戶能夠與車輛的組件通信或者通過車輛的組件進(jìn)行通信。麥克風(fēng)32 向遠(yuǎn)程信息處理單元提供音頻輸入,以使駕駛員或其他占用者能夠通過無線載波系統(tǒng)14 提供語音命令和實(shí)施免提呼叫。為此,其可以利用本領(lǐng)域中已知的人機(jī)接口(HMI)技術(shù)連接到車載自動(dòng)語音處理單元。(多個(gè))按鈕;34允許到遠(yuǎn)程信息處理單元30的手動(dòng)用戶輸入, 以啟動(dòng)無線電話呼叫和提供其他數(shù)據(jù)、響應(yīng)或控制輸入。分立的按鈕可以使用以便向呼叫中心20發(fā)起緊急呼叫和常規(guī)服務(wù)援助呼叫。音頻系統(tǒng)36向車輛占用者提供音頻輸出,并且可以是專用獨(dú)立系統(tǒng)或者是主車輛音頻系統(tǒng)的一部分。根據(jù)在此示出的具體實(shí)施例,音頻系統(tǒng)36可操作地連接到車輛總線44和娛樂總線46,并且能夠提供AM、FM、衛(wèi)星無線電、 ⑶、DVD和其他多媒體功能??梢越Y(jié)合或者獨(dú)立于上述娛樂信息模塊提供此功能??梢曪@示器38優(yōu)選地是圖形顯示器,諸如儀表板上的觸摸屏或者擋風(fēng)玻璃反射的抬頭顯示器,并且可以用于提供多種輸入和輸出功能。也可以使用各種其他車輛用戶接口,因?yàn)閳D1的接口僅是一種具體實(shí)施方式
的示例。無線載波系統(tǒng)14優(yōu)選地是蜂窩電話系統(tǒng),其包括多個(gè)蜂窩塔(cell tower>70 (僅示出一個(gè)),一個(gè)或多個(gè)移動(dòng)交換中心(MSC)72以及將無線載波系統(tǒng)14與地面網(wǎng)絡(luò)16連接所需的任何其他聯(lián)網(wǎng)組件。每個(gè)蜂窩塔70包括發(fā)送和接收天線以及基站,其中,來自不同蜂窩塔的基站直接地連接到MSC 72或者通過諸如基站控制器的中間設(shè)備連接到MSC72。蜂窩系統(tǒng)14可以實(shí)施任何適當(dāng)?shù)耐ㄐ偶夹g(shù),例如,包括諸如AMPS的模擬技術(shù),或者諸如CDMA (例如,CDMA2000)或GSM/GPRS的更新的數(shù)字技術(shù)。如本領(lǐng)域的技術(shù)人員所理解,各種蜂窩塔/基站/MSC布置是可行的,并且可以與無線系統(tǒng)14 一起使用。例如,基站和蜂窩塔可以共同位于相同站點(diǎn),或者他們可以彼此遠(yuǎn)離,每個(gè)基站可以負(fù)責(zé)單個(gè)蜂窩塔或者單個(gè)基站可以服務(wù)于各個(gè)蜂窩塔,以及各個(gè)基站可以連接到單個(gè)MSC,僅列出一些可行布置。除了使用無線載波系統(tǒng)14之外,可以使用衛(wèi)星通信形式的不同的無線載波系統(tǒng), 以向車輛提供單向或雙向通信。這可以使用一個(gè)或多個(gè)通信衛(wèi)星62和上行鏈路發(fā)射站64 來實(shí)施。例如,單向通信可以是衛(wèi)星無線電服務(wù),其中,節(jié)目內(nèi)容(新聞、音樂等)由發(fā)射站64 接收、被打包用于上載、然后發(fā)送到衛(wèi)星62,衛(wèi)星62向用戶廣播節(jié)目。例如,雙向通信可以是使用衛(wèi)星62的衛(wèi)星電話服務(wù),以在車輛12與站64之間中繼電話通信。如果使用,則額外于無線載波系統(tǒng)14或者代替無線載波系統(tǒng)14,可以使用這種衛(wèi)星電話。地面網(wǎng)絡(luò)16可以是常規(guī)的基于地面的電信網(wǎng)絡(luò),其連接到一個(gè)或多個(gè)有線電話并且將無線載波系統(tǒng)14連接到呼叫中心20。例如,地面網(wǎng)絡(luò)16可以包括公共交換電話網(wǎng) (PSTN),諸如用于提供硬線電話、分組交換數(shù)據(jù)通信和因特網(wǎng)基礎(chǔ)設(shè)施??梢酝ㄟ^使用標(biāo)準(zhǔn)有線網(wǎng)絡(luò)、光纖或其他光學(xué)網(wǎng)絡(luò)、電纜網(wǎng)絡(luò)、電源線、諸如無線局域網(wǎng)(WLAN)的其他無線網(wǎng)絡(luò)或者提供寬帶無線接入(BWA)的網(wǎng)絡(luò)或者其任意組合來實(shí)施一段或多段地面網(wǎng)絡(luò)16。此外,呼叫中心20不需要通過地面網(wǎng)絡(luò)16連接,而是可以包括無線電話設(shè)備,從而它可以與無線網(wǎng)絡(luò)諸如無線載波系統(tǒng)14直接通信。計(jì)算機(jī)18可以是通過私有或公共網(wǎng)絡(luò)諸如因特網(wǎng)可訪問的多個(gè)計(jì)算機(jī)之一。每個(gè)這種計(jì)算機(jī)18可以用于一種或多種目的,諸如通過遠(yuǎn)程信息處理單元30和無線載波14 可由車輛訪問的web服務(wù)器。例如,其他這種可訪問的計(jì)算機(jī)18可以是服務(wù)中心計(jì)算機(jī), 其中,可以通過遠(yuǎn)程信息處理單元30從車輛上載診斷信息和其他車輛數(shù)據(jù);客戶機(jī)計(jì)算機(jī),其可由車輛擁有者或其他用戶使用以便如訪問或接收車輛數(shù)據(jù)或者設(shè)置或配置用戶喜好或控制車輛功能的目的;或者第三方存儲(chǔ)器,無論通過與車輛12或呼叫中心20或這兩者通信,車輛數(shù)據(jù)或其他信息被提供到所述第三方存儲(chǔ)器或從所述第三方存儲(chǔ)器提供。計(jì)算機(jī)18還可以用于提供因特網(wǎng)連接,諸如DNS服務(wù)或者作為網(wǎng)絡(luò)地址服務(wù)器,其使用DHCP或其他適當(dāng)協(xié)議以向車輛12分配IP地址。呼叫中心20被設(shè)計(jì)成向車輛電子設(shè)備觀提供多個(gè)不同系統(tǒng)后端功能,并且根據(jù)在此示出的示例性實(shí)施例,大體包括一個(gè)或多個(gè)交換機(jī)80、服務(wù)器82、數(shù)據(jù)庫84、在線指導(dǎo)者86以及自動(dòng)語音響應(yīng)系統(tǒng)(VRS)88,所有這些都是本領(lǐng)域已知的。這些各種呼叫中心組件優(yōu)選地通過有線或無線局域網(wǎng)90彼此連接。交換機(jī)80,其可以是專用交換(PBX)交換機(jī),路由進(jìn)入信號,使得語音傳輸通常通過常規(guī)電話發(fā)送到在線指導(dǎo)者86或者使用VoIP發(fā)送到自動(dòng)語音響應(yīng)系統(tǒng)88。在線指導(dǎo)者電話也可以使用VoIP,如圖1的虛線所指示。通過交換機(jī)80的VoIP和其他數(shù)據(jù)通信通過在交換機(jī)80與網(wǎng)絡(luò)90之間連接的調(diào)制解調(diào)器(未示出)來實(shí)施。數(shù)據(jù)傳輸通過調(diào)制解調(diào)器到服務(wù)器82和/或數(shù)據(jù)庫84。數(shù)據(jù)庫84可以存儲(chǔ)賬戶信息,諸如用戶認(rèn)證信息、車輛標(biāo)識、個(gè)人資料記錄、行為模式和其他相關(guān)用戶信息。 還可以通過無線系統(tǒng),諸如802. llx、GPRS等進(jìn)行數(shù)據(jù)傳輸。盡管所示實(shí)施例被描述為它通過利用在線指導(dǎo)者86結(jié)合人工呼叫中心20而使用,但是將明白,呼叫中心可以使用VRS 88 作為自動(dòng)指導(dǎo)者,或者可以使用VRS 88與在線指導(dǎo)者86的組合。語音合成系統(tǒng)
現(xiàn)在轉(zhuǎn)到圖2,示出能夠使用當(dāng)前所公開方法的文本至語音(TTS)系統(tǒng)210的示例性架構(gòu)。通常,用戶或車輛占用者可以與TTS系統(tǒng)交互,以從應(yīng)用例如車輛導(dǎo)航應(yīng)用、免提呼叫應(yīng)用等的菜單提示接收指令或收聽菜單指示。通常,TTS系統(tǒng)從文本源提取輸出詞語或標(biāo)識符,將輸出轉(zhuǎn)換成適當(dāng)?shù)恼Z言單元,選擇與語言單元最好地對應(yīng)的所存儲(chǔ)的語音單元,將選擇的語音單元轉(zhuǎn)換成音頻信號,并且輸出音頻信號作為與用戶交互的可聽語音。TTS系統(tǒng)通常對于本領(lǐng)域的技術(shù)人員是已知的,如在背景技術(shù)部分所描述。但是, 圖2示出根據(jù)本公開的改進(jìn)TTS系統(tǒng)的示例。根據(jù)一個(gè)實(shí)施例,系統(tǒng)210的部分或全部可以駐留在圖1的遠(yuǎn)程信息處理單元30上,并且使用圖1的遠(yuǎn)程信息處理單元30進(jìn)行處理。 根據(jù)可選示例性實(shí)施例,系統(tǒng)210的部分或全部可以駐留在遠(yuǎn)離車輛12的位置中的計(jì)算機(jī)設(shè)備例如呼叫中心20上,并且使用該計(jì)算機(jī)設(shè)備處理。例如,語言模型、聲學(xué)模型等可以存儲(chǔ)在呼叫中心20的服務(wù)器82之一的存儲(chǔ)器和/或數(shù)據(jù)庫84中,且被通信到遠(yuǎn)程信息處理單元30用于車輛內(nèi)置的TTS處理。類似地,可以使用呼叫中心20的服務(wù)器82之一的處理器處理TTS軟件。換句話說,TTS系統(tǒng)210可以駐留在遠(yuǎn)程信息處理單元30中,或者按照任何期望的方式分布在呼叫中心四和車輛12。
系統(tǒng)210可以包括一個(gè)或多個(gè)文本源21 , 21 和存儲(chǔ)器,例如,遠(yuǎn)程信息處理存儲(chǔ)器討,用于存儲(chǔ)來自文本源21 , 212b的文本且存儲(chǔ)TTS軟件和數(shù)據(jù)。系統(tǒng)210還可以包括處理器,例如,遠(yuǎn)程信息處理器52,處理文本,并且與存儲(chǔ)器一起以及結(jié)合下面的系統(tǒng)模塊運(yùn)行。預(yù)處理器214從文本源21 ,212b接收文本,并且將文本轉(zhuǎn)換成適當(dāng)?shù)脑~語等。合成引擎216將來自預(yù)處理器214的輸出轉(zhuǎn)換成適當(dāng)?shù)恼Z言單元,例如,短語、從句和/ 或句子。一個(gè)或多個(gè)語音數(shù)據(jù)庫218 218b存儲(chǔ)記錄的語音。單元選擇器220從語音數(shù)據(jù)庫218a,218b選擇與來自合成引擎216的輸出最好地對應(yīng)的所存儲(chǔ)的語音單元。后處理器222修改或調(diào)節(jié)一個(gè)或多個(gè)選擇的所存儲(chǔ)語音的單元。一個(gè)或多個(gè)語言模型2M用作為到合成引擎216的輸入,一個(gè)或多個(gè)聲學(xué)模型2 用作為到單元選擇器220的輸入。系統(tǒng)210還可以包括聲學(xué)接口 228,以將選擇的語音單元轉(zhuǎn)換成音頻信號;以及揚(yáng)聲器230, 例如遠(yuǎn)程信息處理音頻系統(tǒng)的揚(yáng)聲器,以將音頻信號轉(zhuǎn)換成可聽語音。系統(tǒng)210還可以包括麥克風(fēng),例如,遠(yuǎn)程信息處理麥克風(fēng)32,以及聲學(xué)接口 232,以將語音數(shù)字化成聲學(xué)數(shù)據(jù)用作為到后處理器222的反饋。文本源212 212b可以是任何適當(dāng)?shù)慕橘|(zhì),且可以包括任何適當(dāng)?shù)膬?nèi)容。例如, 文本源212 212b可以是一個(gè)或多個(gè)掃描文檔、文本文件或應(yīng)用數(shù)據(jù)文件、或者任何其他適當(dāng)?shù)挠?jì)算機(jī)文件等。文本源21 ,212b可以包括將被合成為語音的詞語、數(shù)字、符號和 /或標(biāo)點(diǎn),并且用于輸出到文本轉(zhuǎn)換器214。可以使用任何適當(dāng)量的文本源。但是在一個(gè)示例性實(shí)施例中,第一文本源21 可以來自第一服務(wù)提供者,第二文本源212b可以來自第二服務(wù)提供者。例如,第一服務(wù)提供者可以是導(dǎo)航服務(wù)提供者,第二服務(wù)提供者可以是地圖數(shù)據(jù)服務(wù)提供者。預(yù)處理器214將來自文本源212的文本轉(zhuǎn)換成詞語、標(biāo)識符等。例如,在文本是數(shù)字格式的情況下,預(yù)處理器214可以將數(shù)字轉(zhuǎn)換為相應(yīng)的詞語。在另一示例中,在文本是標(biāo)點(diǎn)、具有帽(cap)、下劃線或粗體的強(qiáng)調(diào)的情況下,預(yù)處理器214可以將其轉(zhuǎn)換成適合于合成引擎216和/或單元選擇器220使用的輸出。合成引擎216從文本轉(zhuǎn)換器214接收輸出,并且將該輸出布置為語言單元,其可以包括一個(gè)或多個(gè)句子,從句、短語、詞語、子詞等。引擎216可以使用語言模型224,以便輔助協(xié)調(diào)最可能的語言單元排列。在將來自文本轉(zhuǎn)換器214的輸出排列為語言單元時(shí),語言模型2M提供規(guī)則、語法和/或語義。語言模型2M還可以限定處于任意給定時(shí)間任何給定 TTS模式系統(tǒng)210期望的語言單元的領(lǐng)域,和/或可以提供規(guī)則等,從而管理哪種類型的語言單元和/或語調(diào)可以在邏輯上跟隨其他類型語言單元和/或語調(diào),以形成自然的發(fā)聲語音。語言單元可以包括語音等同物,例如,音素串等,并且可以是音素HMM的形式。語音數(shù)據(jù)庫218 218b包括從一個(gè)或多個(gè)人預(yù)先記錄的語音。語音可以包括預(yù)先記錄的句子、從句、短語、詞語、預(yù)先記錄的詞語的子詞等。語音數(shù)據(jù)庫218 218b還可以包括與預(yù)先記錄的語音相關(guān)聯(lián)的數(shù)據(jù),例如,元數(shù)據(jù),以識別所記錄的語音段,以便由單元選擇器220使用。可以使用任何適當(dāng)量的語音數(shù)據(jù)庫。但是在一個(gè)示例性實(shí)施例中,第一語音數(shù)據(jù)庫218a可以來自第一服務(wù)提供者,第二語音數(shù)據(jù)庫218b可以來自第二服務(wù)提供者。在此實(shí)施例中,第二文本源212b和第二語音數(shù)據(jù)庫218b中的一個(gè)或兩個(gè)可以是系統(tǒng)210的集成部分,或者分別連接到系統(tǒng)210,如相對于第二語音數(shù)據(jù)庫218b所示,并且可以是獨(dú)立于TTS系統(tǒng)210的產(chǎn)品的一部分,例如,來自地圖提供者的地圖數(shù)據(jù)庫產(chǎn)品215。
1
單元選擇器220將來自合成引擎216的輸出與存儲(chǔ)的語音數(shù)據(jù)進(jìn)行比較,并且選擇與合成引擎輸出最好地對應(yīng)的存儲(chǔ)的語音。由單元選擇器220選擇的語音可以包括預(yù)先記錄的句子、從句、短語、詞語、預(yù)先記錄的詞語的子詞等。選擇器220可以使用聲學(xué)模型 226,以便輔助比較和選擇最可能或最好地對應(yīng)的存儲(chǔ)語音的候選。可以結(jié)合選擇器220使用聲學(xué)模型226,以比較和對比合成引擎輸出的數(shù)據(jù)與存儲(chǔ)的語音數(shù)據(jù),評估它們之間的差異或類似度的幅度,并且最終使用決策邏輯來識別最佳匹配的所存儲(chǔ)的語音數(shù)據(jù)并輸出相應(yīng)的所記錄的語音。通常,最佳匹配的語音數(shù)據(jù)是與合成引擎216的輸出具有最小差異或最大可能為合成引擎216的輸出,如通過對本領(lǐng)域的技術(shù)人員所知的多種技術(shù)中的任何一種所確定。 這些技術(shù)可以包括動(dòng)態(tài)時(shí)間-規(guī)整(time-warping)分類器、人工智能技術(shù)、神經(jīng)網(wǎng)絡(luò)、自由音素識別器、和/或概率模式匹配器,諸如隱馬爾可夫模型(HMM)引擎。HMM引擎是本領(lǐng)域的技術(shù)人員公知的用于產(chǎn)生多個(gè)TTS模型候選或假設(shè)??梢栽谕ㄟ^語音的聲學(xué)特征分析最終識別和選擇表示合成引擎輸出的最可能的正確解釋的所存儲(chǔ)的語音數(shù)據(jù)中考慮所述假設(shè)。更具體地,HMM引擎例如通過應(yīng)用貝葉斯定理根據(jù)給定一個(gè)或另一個(gè)語言單元的聲學(xué)數(shù)據(jù)的所觀察序列的經(jīng)HMM計(jì)算的信任值或概率所排序的語言單元假設(shè)的“N最佳”列表的形式產(chǎn)生靜態(tài)模型。在一個(gè)實(shí)施例中,來自單元選擇器220的輸出可以直接通過到達(dá)聲學(xué)接口 2 或者不經(jīng)過后處理而通過后處理器222。在另一實(shí)施例中,后處理器222可以接收來自單元選擇器220的輸出用于進(jìn)一步處理。在這兩種情況下,聲學(xué)接口 2 將數(shù)字音頻數(shù)據(jù)轉(zhuǎn)換成模擬音頻數(shù)據(jù)。接口 2 可以是數(shù)字-模擬轉(zhuǎn)換設(shè)備、電路和/或軟件等。揚(yáng)聲器230是將模擬音頻數(shù)據(jù)轉(zhuǎn)換成用戶可聽的且麥克風(fēng)32可接收的語音的電聲換能器。在一個(gè)實(shí)施例中,麥克風(fēng)32可以用于將來自揚(yáng)聲器230的語音輸出轉(zhuǎn)換成電信號,并且將此信號通信到聲學(xué)接口 232。聲學(xué)接口 232接收模擬電信號,該模擬電信號首先被采樣,使得模擬信號值在離散時(shí)刻被捕獲,然后被量化,從而在每個(gè)采樣點(diǎn)將模擬信號的幅度轉(zhuǎn)換成數(shù)字語音數(shù)據(jù)的連續(xù)流。換句話說,聲學(xué)接口 232將模擬電信號轉(zhuǎn)換成數(shù)字電信號。數(shù)字?jǐn)?shù)據(jù)是二進(jìn)制比特,其在存儲(chǔ)器M中緩沖,然后由處理器52進(jìn)行處理,或者在它們由處理器52初始接收時(shí)被實(shí)時(shí)處理。類似地,在此實(shí)施例中,后處理器模塊222可以將來自接口 232的數(shù)字語音數(shù)據(jù)的連續(xù)流變換成聲學(xué)參數(shù)的離散序列。更具體地,處理器52可以執(zhí)行后處理器模塊222,以將數(shù)字語音數(shù)據(jù)分段成例如持續(xù)時(shí)間為10-30 ms的重疊語音或聲學(xué)幀。所述幀對應(yīng)于聲學(xué)子詞,諸如音節(jié)、半音節(jié)、單音、雙音、音素等。后處理器模塊222還可以執(zhí)行語音分析,以從每幀內(nèi)的數(shù)字化的語音(諸如時(shí)間變化特征的向量)提取聲學(xué)參數(shù)表示。語音內(nèi)的話語可以被表示為這些特征向量的序列。例如,并如本領(lǐng)域的技術(shù)人員所知,特征向量可以提取, 并且例如,可以包括通過執(zhí)行幀的傅里葉變換和使用余弦變換對聲學(xué)譜解相關(guān)所獲得的音高、能源輪廓、譜特性和/或倒頻譜系數(shù)??梢源鎯?chǔ)和處理覆蓋特定語音持續(xù)時(shí)間的聲學(xué)幀以及相應(yīng)參數(shù)。在優(yōu)選實(shí)施例中,后處理器222可以按照任何適當(dāng)?shù)姆绞叫薷拇鎯?chǔ)的語音。例如, 存儲(chǔ)的語音可以被修改,從而使從一個(gè)說話者記錄的語音調(diào)節(jié)成聽起來類似于從另一說話音,或者使從說話者的一種語言記錄的語音調(diào)節(jié)成聽起來類似于從相同說話者的另一種語言記錄的語音。后處理器222可以將來自一個(gè)說話者的語音數(shù)據(jù)與來自另一說話者的語音數(shù)據(jù)轉(zhuǎn)換。更具體地,對于一個(gè)說話者的說話者具體特性,后處理器222可以從該說話者提取或以其他方式處理倒頻譜的聲學(xué)特征,并且對那些特征進(jìn)行倒頻譜分析。在另一示例中,對于一個(gè)說話者的說話者具體特性,后處理器222可以從該說話者提取聲學(xué)特征,并且對那些特征進(jìn)行歸一化變換。如在此使用,術(shù)語一個(gè)說話者和另一說話者或者兩個(gè)不同說話者,可以包括兩個(gè)不同人說相同語言或者一個(gè)人說兩種不同語言。另外,在此實(shí)施例中,后處理器222可以用于適當(dāng)?shù)靥卣鳛V波第二說話者的語音。 然而,在執(zhí)行這種特征濾波之前,第一說話者的說話特定特征用于調(diào)整在第二說話者的語音的聲學(xué)特征濾波中使用的濾波器組的一個(gè)或多個(gè)參數(shù)。例如,可以在基于人耳的心理聲學(xué)模型模擬頻率范圍的一個(gè)或多個(gè)濾波器組的頻率規(guī)整中使用說話者特定特性。更具體地,頻率規(guī)整可以包括梅爾頻率倒頻譜濾波器組的中心頻率的調(diào)整,改變到這種濾波器組的上截止頻率和下截止頻率,修改這些濾波器組的形狀(例如,拋物線形,梯形),調(diào)整濾波器增益等。一旦已經(jīng)修改濾波器組,它們就用于濾波來自第二說話者的語音的聲學(xué)特征。當(dāng)然,從第二說話者的語音所濾波的聲學(xué)特征從其在沒有濾波器組修改的情況下被修改,因此,可以促進(jìn)來自第二說話者的調(diào)節(jié)語音的輸出,和/或調(diào)節(jié)或再訓(xùn)練HMM,以便用于選擇或處理第二說話者的語音。方法
現(xiàn)在轉(zhuǎn)到圖3,示出語音合成方法300??梢允褂迷谲囕v遠(yuǎn)程信息處理單元30的操作環(huán)境內(nèi)適當(dāng)編程的圖2的TTS系統(tǒng)210以及使用適當(dāng)硬件和對圖1所示的其他組件編程來實(shí)施圖3的方法300?;谏鲜鱿到y(tǒng)描述以及下面結(jié)合其他附圖描述的方法討論,本領(lǐng)域的技術(shù)人員將知道任何特定實(shí)施方式的這些特征。本領(lǐng)域的技術(shù)人員還將認(rèn)識到,可以使用其他操作環(huán)境內(nèi)的其他TTS系統(tǒng)實(shí)施所述方法。通常,方法300包括在TTS系統(tǒng)中接收第一和第二文本輸入,使用系統(tǒng)處理器將第一和第二文本輸入處理為與分別來自第一和第二說話者的所存儲(chǔ)的語音相應(yīng)的各自的第一和第二語音輸出,并且使第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸出。再參照圖3,方法300在步驟305以任何適當(dāng)?shù)姆绞介_始。例如,車輛用戶開始與遠(yuǎn)程信息處理單元30的用戶接口交互,優(yōu)選地,通過按下用戶接口按鈕34,以開始會(huì)話,其中,在TTS模式下操作的同時(shí)用戶從遠(yuǎn)程信息處理單元30接收TTS音頻。在一個(gè)示例性實(shí)施例中,方法300可以作為遠(yuǎn)程信息處理單元30的導(dǎo)航路由應(yīng)用的一部分而開始。在步驟310,在TTS系統(tǒng)中接收第一文本輸入。例如,第一文本輸入可以包括來自 TTS系統(tǒng)210的第一文本源21 的導(dǎo)航指令。導(dǎo)航指令可以包括定向調(diào)動(dòng),例如,IN 500’ TURN RIGHT ONTO (在 500,,右轉(zhuǎn)到)…。在步驟315,對第一文本輸入進(jìn)行預(yù)處理,以將文本轉(zhuǎn)換成適合于語音合成的輸出。例如,預(yù)處理器214可以將從文本源21 接收的文本轉(zhuǎn)換成詞語、標(biāo)識符等,以便供合成引擎216使用。更具體地,可以將來自步驟310的示例導(dǎo)航指令轉(zhuǎn)換成“在500英尺,右轉(zhuǎn)到…”。在步驟320,來自步驟315的輸出被排列為語言單元。例如,合成引擎216可以從文本轉(zhuǎn)換器214接收輸出,并且使用語言模型2M可以將輸出排列為語言單元,所述語言單元可以包括一個(gè)或多個(gè)句子、從句、短語、詞語、子詞等。語言單元可以包括語音等同物,例如,音素串等。在步驟325,將語言單元與存儲(chǔ)的語音數(shù)據(jù)進(jìn)行比較,選擇與語言單元最好地對應(yīng)的語音被選擇作為代表輸入文本的語音。例如,單元選擇器220可以使用聲學(xué)模型228,以將從合成引擎216輸出的語言單元與存儲(chǔ)在第一語音數(shù)據(jù)庫218a中的語音數(shù)據(jù)進(jìn)行比較, 并且選擇具有與合成引擎輸出最好地對應(yīng)的相關(guān)聯(lián)數(shù)據(jù)的所存儲(chǔ)的語音。步驟320和325 一起可以構(gòu)成使用所存儲(chǔ)的來自第一說話者的語音將第一文本輸入處理或合成為第一語音輸出的示例。在步驟330,在TTS系統(tǒng)中接收第二文本輸入。例如,第二文本輸入可以包括來自TTS系統(tǒng)210的第二文本源212b的導(dǎo)航變量。導(dǎo)航變量可以包括街道名稱,例如,“S. M-24”。在步驟335,將第二文本輸入進(jìn)行預(yù)處理,以將文本轉(zhuǎn)換成可合成輸出或適合于語音合成的輸出。例如,預(yù)處理器214可以將從第二文本源212b接收的文本轉(zhuǎn)換成詞語、標(biāo)識符等,以便供合成引擎216使用。更具體地,來自步驟330的示例導(dǎo)航變量可以被轉(zhuǎn)換成 “(向南M 二十四)Southbound M Twenty Four ”。導(dǎo)航指令和變量一起可以構(gòu)成TTS塑造提示。在步驟340,將來自步驟335的輸出排列為語言單元。例如,合成引擎216可以從文本轉(zhuǎn)換器214接收輸出,并且使用語言模型2M可以將輸出排列為語言單元,所述語言單元可以包括一個(gè)或多個(gè)句子、從句、短語、詞語、子詞等。語言單元可以包括語音等同物,例如,音素串等。在步驟345,將語言單元與存儲(chǔ)的語音數(shù)據(jù)進(jìn)行比較,并且與語言單元最好地對應(yīng)的語音被選擇作為代表輸入文本的語音。例如,單元選擇器220可以使用聲學(xué)模型228,以將從合成引擎216輸出的語言單元與存儲(chǔ)在第二語音數(shù)據(jù)庫218b中的語音數(shù)據(jù)進(jìn)行比較, 并且選擇具有與合成引擎輸出最好地對應(yīng)的相關(guān)聯(lián)數(shù)據(jù)的所存儲(chǔ)的語音。步驟340和345 一起可以構(gòu)成使用存儲(chǔ)的來自第二說話者的語音將第二文本輸入處理或合成為第二語音輸出的示例。在步驟350,第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸出。例如,對于第一說話者的一個(gè)或多個(gè)說話者特定特性可分析第一語音輸出的聲學(xué)特征,然后可以基于第一說話者的(多個(gè))說話者特定特性調(diào)整用于從第二語音輸出濾波聲學(xué)特征的聲學(xué)特征濾波器,其后,可使用調(diào)整的濾波器對來自從第二語音輸出的聲學(xué)特征進(jìn)行濾波。在一個(gè)實(shí)施例中,可以通過調(diào)整梅爾頻率倒頻譜濾波器的一個(gè)或多個(gè)參數(shù)來調(diào)整濾波器。所述參數(shù)可以包括濾波器組中心頻率、濾波器組截止頻率、濾波器組帶寬、濾波器組形狀、濾波器增益等。說話者特定特性包括聲道或鼻腔相關(guān)特性中的至少一個(gè)。更具體地,所述特性可包括長度、形狀、轉(zhuǎn)換函數(shù)、格式、音調(diào)頻率等。在一個(gè)實(shí)施例中,可以從預(yù)先記錄的語音預(yù)先提取第一語音輸出的聲學(xué)特征,且將該聲學(xué)特征與該語音相關(guān)聯(lián)地存儲(chǔ)在例如語音數(shù)據(jù)庫218a,218b中。在另一實(shí)施例中, 可以通過后處理器222從TTS系統(tǒng)210內(nèi)的選擇的預(yù)先記錄的語音提取聲學(xué)特征。在另一實(shí)施例中,可以在聲學(xué)特征從揚(yáng)聲器230輸出、由麥克風(fēng)32接收且經(jīng)由接口 232反饋到后處理器222之后,從選擇的預(yù)先記錄的語音提取聲學(xué)特征。通常,聲學(xué)特征提取對于本領(lǐng)域的普通技術(shù)人員來說是公知的,并且聲學(xué)特征可以包括梅爾頻率倒頻譜系數(shù)(MFCC),相關(guān)頻譜變換-感知線性預(yù)測特征(RASTA-PLP特征),或者任何其他合適聲學(xué)特征。在步驟355,輸出來自第一說話者的第一語音輸出。例如,可以通過接口 2 和揚(yáng)聲器230輸出由選擇器220從數(shù)據(jù)庫218a選擇的來自第一說話者的預(yù)先記錄的語音。在步驟360,輸出來自第二說話者的經(jīng)調(diào)節(jié)的第二語音。例如,可以通過接口 2 和揚(yáng)聲器230輸出由選擇器220從數(shù)據(jù)庫218b選擇的并且通過后處理器222調(diào)節(jié)的來自第二說話者的預(yù)先記錄的語音。在步驟365,可以修改與處理來自第二說話者的所存儲(chǔ)語音結(jié)合使用的模型。例如,聲學(xué)模型2 可以包括可以按照任何適當(dāng)方式調(diào)節(jié)的TTS隱馬爾可夫模型(HMM),使得來自第二說話者的隨后的語音聽起來越來越像來自第一說話者的。如這里相對于TTS系統(tǒng) 21先前所述,后處理器222可用于以任何適當(dāng)?shù)姆绞叫薷拇鎯?chǔ)的語音。如虛線所示,經(jīng)調(diào)節(jié)的TTS HMM可以反饋上游以改善隨后的語音的選擇。在步驟370,方法可以以任何適當(dāng)?shù)姆绞浇Y(jié)束。與用于在說話者聲音聽起來不同的TTS系統(tǒng)中輸出來自多個(gè)不同說話者的語音的現(xiàn)有技術(shù)相比,當(dāng)前公開的語音合成方法,使得來自說話者之一的語音調(diào)節(jié)成聽起來像說話者中另一個(gè)的語音。盡管結(jié)合在導(dǎo)航背景中的示例塑造提示(sculpted prompt)或指令描述了當(dāng)前公開的方法,但是,可以在任何其他適當(dāng)背景中使用所述方法。例如,可以在免提呼叫背景中使用所述方法,以使存儲(chǔ)的標(biāo)簽調(diào)節(jié)成聽起來像發(fā)音的命令,或者反之亦然。在其他示例中,可以在自動(dòng)語音菜單、語音控制設(shè)備等中在調(diào)節(jié)來自不同說話者的指令時(shí)使用所述方法。所述方法或其一部分可以在包括計(jì)算機(jī)可讀介質(zhì)上實(shí)施的指令的計(jì)算機(jī)程序產(chǎn)品中來實(shí)施,以便由一個(gè)或多個(gè)計(jì)算機(jī)的一個(gè)或多個(gè)處理器使用來實(shí)施一個(gè)或多個(gè)所述方法步驟。計(jì)算機(jī)程序產(chǎn)品可以包括一個(gè)或多個(gè)軟件程序,包括源代碼、目標(biāo)代碼、可執(zhí)行代碼或其他格式的程序指令;一個(gè)或多個(gè)固件程序;或者硬件描述語言(HDL)文件;以及任何程序相關(guān)數(shù)據(jù)。所述數(shù)據(jù)可以包括數(shù)據(jù)結(jié)構(gòu)、查找表、或任何其他適當(dāng)格式的數(shù)據(jù)。所述程序指令可以包括程序模塊、例程、程序、對象、分量等??梢栽谝慌_計(jì)算機(jī)上或者在彼此通信的多臺計(jì)算機(jī)上執(zhí)行計(jì)算機(jī)程序。(多個(gè))程序可以體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)上,其可以包括一個(gè)或多個(gè)存儲(chǔ)設(shè)備、制造物品等。示例性計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)系統(tǒng)存儲(chǔ)器,例如,RAM (隨機(jī)訪問存儲(chǔ)器)、 ROM (只讀存儲(chǔ)器);半導(dǎo)體存儲(chǔ)器,例如,EPROM (可擦除可編程ROM)、EEPROM (電可擦除可編程ROM)、閃存;磁或光盤或帶等。計(jì)算機(jī)可讀介質(zhì)還可以包括計(jì)算機(jī)到計(jì)算機(jī)連接件,例如,當(dāng)通過網(wǎng)絡(luò)或另一通信連接(有線、無線或其組合)傳遞或提供數(shù)據(jù)時(shí)。上述示例的任何組合也包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。因此,應(yīng)理解,可以通過能夠執(zhí)行與所公開方法的一個(gè)或多個(gè)步驟相應(yīng)的指令的任何電子物品和/或設(shè)備至少部分地執(zhí)行所述方法。應(yīng)理解,上面是本發(fā)明的一個(gè)或多個(gè)優(yōu)選示例性實(shí)施例的描述。本發(fā)明不限于在此公開的(多個(gè))具體實(shí)施例,而是僅由所附權(quán)利要求限定。此外,上述描述中包含的陳述涉及具體實(shí)施例,并且不被解釋為限制本發(fā)明的范圍或者限制權(quán)利要求中使用的術(shù)語的定義,除非其中上面明確限定術(shù)語或短語。各種其他實(shí)施例以及對所公開的(多個(gè))實(shí)施例的各種改變和修改對于本領(lǐng)域的技術(shù)人員將是明顯的。例如,本發(fā)明可應(yīng)用于語音信號處理的其他領(lǐng)域,諸如移動(dòng)通信、通過因特網(wǎng)協(xié)議應(yīng)用的語音等。所有這些其他實(shí)施例、改變和修改意在落入所附權(quán)利要求的范圍內(nèi)。 如在此說明書和權(quán)利要求中所使用,當(dāng)結(jié)合一個(gè)或多個(gè)組件或其他項(xiàng)的列表使用時(shí),術(shù)語“例如”,“比如”,“諸如”和“等”以及動(dòng)詞“包括”,“具有”,“包含”以及其他動(dòng)詞形式,每個(gè)被解釋為開放式,意味著所述列表不被認(rèn)為是排除其他額外組件或項(xiàng)。其他術(shù)語被解釋為使用它們的最廣泛的合理含義,除非它們使用在需要不同的解釋的背景中。
權(quán)利要求
1.一種語音合成的方法,其包括步驟(a)在文本至語音系統(tǒng)中接收第一文本輸入和第二文本輸入;(b)使用所述系統(tǒng)的處理器將第一文本輸入和第二文本輸入處理為與分別來自第一說話者和第二說話者的所存儲(chǔ)語音相應(yīng)的各自的第一語音輸出和第二語音輸出;以及(c)使第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸出。
2.如權(quán)利要求1所述的方法,還包括步驟(d)輸出第一說話者的第一語音輸出;以及(e)輸出第二說話者的經(jīng)調(diào)解的第二語音輸出。
3.如權(quán)利要求2所述的方法,其中,所述第一語音輸出是導(dǎo)航指令,而所述第二語音輸出是導(dǎo)航變量。
4.如權(quán)利要求3所述的方法,其中,所述導(dǎo)航指令是定向調(diào)動(dòng),而所述導(dǎo)航變量是街道名稱。
5.如權(quán)利要求2所述的方法,還包括步驟(f)修改結(jié)合處理來自第二說話者的所存儲(chǔ)語音使用的模型。
6.如權(quán)利要求5所述的方法,其中,步驟(f)包括修改隱馬爾可夫模型。
7.如權(quán)利要求1所述的方法,其中,步驟(c)包括(cl)對于第一說話者的至少一個(gè)說話者特定特性分析第一語音輸出的聲學(xué)特征; (c2)基于第一說話者的所述至少一個(gè)說話者特定特性,調(diào)整用于濾波來自第二語音輸出的聲學(xué)特征的聲學(xué)特征濾波器;以及(c3)使用步驟(U)中調(diào)整的濾波器濾波來自第二語音輸出的聲學(xué)特征。
8.如權(quán)利要求7所述的方法,其中,步驟(c:3)包括調(diào)整梅爾頻率倒頻譜濾波器的至少一個(gè)參數(shù),數(shù)包括濾波器組中心頻率、濾波器組截止頻率、濾波器組帶寬、濾波器組形狀或?yàn)V波器增益的至少一個(gè)。
9.一種計(jì)算機(jī)程序產(chǎn)品,其包括在計(jì)算機(jī)可讀介質(zhì)上且由語音合成系統(tǒng)的計(jì)算機(jī)處理器可執(zhí)行以使系統(tǒng)實(shí)施下述步驟的指令,所述步驟包括(a)在文本至語音系統(tǒng)中接收第一文本輸入和第二文本輸入;(b)使用所述系統(tǒng)的處理器將第一文本輸入和第二文本輸入處理為與分別來自第一說話者和第二說話者的所存儲(chǔ)語音相應(yīng)的各自的第一語音輸出和第二語音輸出;以及(c)使第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸出。
10.一種語音合成系統(tǒng),其包括 第一文本源;第二文本源;第一語音數(shù)據(jù)庫,包括預(yù)先記錄的來自第一說話者的語音; 第二語音數(shù)據(jù)庫,包括預(yù)先記錄的來自第二說話者的語音; 預(yù)處理器,其將文本轉(zhuǎn)換成能夠合成的輸出;處理器,其將來自第一文本源和第二文本源的第一文本輸入和第二文本輸入轉(zhuǎn)換為與分別來自第一說話者和第二說話者的預(yù)先記錄的語音相應(yīng)的各自的第一語音輸出和第二語音輸出;以及后處理器,其使第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸出。
全文摘要
本發(fā)明涉及語音合成中的語音調(diào)節(jié)。一種用于語音合成的方法和系統(tǒng),第一文本輸入和第二文本輸入接收在文本至語音系統(tǒng)中,并且使用所述系統(tǒng)的處理器處理為分別與第一說話者和第二說話者的所存儲(chǔ)語音相應(yīng)的各自的第一語音輸出和第二語音輸出。第二說話者的第二語音輸出調(diào)節(jié)成聽起來像第一說話者的第一語音輸出。
文檔編號G10L13/02GK102243870SQ201110123670
公開日2011年11月16日 申請日期2011年5月13日 優(yōu)先權(quán)日2010年5月14日
發(fā)明者G.塔爾瓦, J.M.斯蒂芬, R.琴加爾瓦拉延 申請人:通用汽車有限責(zé)任公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1