專利名稱:分布式語音合成系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在計算機和其它計算設(shè)備上將任意文本轉(zhuǎn)換為自然的口語語音輸出技術(shù)。
背景技術(shù):
語音合成,又稱文語轉(zhuǎn)換(Text-To-Speech、TTS),旨在研究如何在計算機和其它計算設(shè)備上將任意文本轉(zhuǎn)換為自然的口語語音輸出的問題。它涉及語言學(xué)、語音學(xué)、聲學(xué)、信號處理、人工智能和多媒體等領(lǐng)域的知識。國內(nèi)外很多公司、大學(xué)和研究機構(gòu)對TTS做了大量的研究,并且取得了令人矚目的成就。
傳統(tǒng)TTS系統(tǒng)的一般處理流程如附
圖1所示,它主要包括文本預(yù)處理、語言分析、韻律生成、語音單元挑選、語音合成等關(guān)鍵處理環(huán)節(jié)。
傳統(tǒng)TTS系統(tǒng)處理環(huán)節(jié)眾多,計算復(fù)雜度高,系統(tǒng)所需的詞典、音庫容量大,隨著研究的不斷深入,TTS已經(jīng)由桌面級系統(tǒng)向服務(wù)器級系統(tǒng)發(fā)展,由低自然度、低性能系統(tǒng)向高自然度、高性能系統(tǒng)發(fā)展,因而對計算機的處理能力和存儲容量提出了更大的需求。
特別是近一兩年以來,移動終端設(shè)備(如個人數(shù)字助理PDA、嵌入式系統(tǒng))迅速普及,無線互聯(lián)網(wǎng)方興未艾,終端應(yīng)用掀起了對語音合成的迫切需求。由于移動終端設(shè)備處理能力相對低下,存儲容量相對不足,它們的這些天然特性加上其賴以通信的無線互聯(lián)網(wǎng)現(xiàn)狀(連接距離短、帶寬窄、穩(wěn)定性較差),PC上傳統(tǒng)TTS系統(tǒng)在該領(lǐng)域不再適用。這對TTS研究提出了新的課題。
為解決這個問題,已有研究者通過減少TTS系統(tǒng)的處理環(huán)節(jié),簡化文本分析規(guī)則和韻律模型,減少音庫中的語言單元數(shù)量,壓縮音庫等辦法,研制出基于PDA和嵌入式系統(tǒng)的獨立TTS系統(tǒng)。但這種系統(tǒng)從本質(zhì)上而言是PC上大型TTS系統(tǒng)的極端簡化版本,無論是合成語音的自然度、清晰度、可懂度,還是系統(tǒng)效率均與大型TTS系統(tǒng)差距甚遠。
技術(shù)內(nèi)容本發(fā)明的目的在于提供一種分布式語音合成系統(tǒng),旨在將傳統(tǒng)TTS系統(tǒng)一般處理流程中的各個處理環(huán)節(jié)按先后順序劃分為前后兩個部分,每個部分均由連續(xù)的處理環(huán)節(jié)組成,為在資源敏感的移動終端設(shè)備上合成出與PC上大型TTS系統(tǒng)相同自然度的自然語音。
為實現(xiàn)上述目的,本發(fā)明所公開的分布式語音合成系統(tǒng),其特征在于系統(tǒng)包括語音合成前端處理環(huán)節(jié)和語音合成后端處理環(huán)節(jié),所述的語音合成前端環(huán)節(jié)運行在服務(wù)器上,語音合成后端環(huán)節(jié)運行在客戶機上,采用客戶/服務(wù)器(C/S)計算模式,服務(wù)器和客戶機之間通過數(shù)據(jù)交換標準和協(xié)議標準進行通信,共同完成整個TTS處理過程。
為在資源敏感的移動終端設(shè)備上合成出與PC上大型TTS系統(tǒng)相同自然度的自然語音,我們提出分布式語音合成(Distributed SpeechSynthesis、DSS)的思想將傳統(tǒng)TTS系統(tǒng)一般處理流程中的各個處理環(huán)節(jié)按先后順序劃分為前后兩個部分,每個部分均由連續(xù)的處理環(huán)節(jié)組成。我們把前面部分的處理環(huán)節(jié)總和稱為語音合成前端,把后面部分的處理環(huán)節(jié)總和稱為語音合成后端。分布式語音合成就是指采用客戶/服務(wù)器(C/S)計算模式,語音合成前端運行在服務(wù)器上,語音合成后端運行在客戶機上,服務(wù)器和客戶機之間通過一定的數(shù)據(jù)交換標準和協(xié)議標準進行通信,共同完成整個TTS處理過程。通過服務(wù)器和客戶機之間的協(xié)同工作,將部分工作壓力放在服務(wù)器上,減輕了客戶機的負荷,使得設(shè)計人員可以把注意力集中放在語音合成提升效果上,因而可以獲得高自然度的合成語音。我們把完成語音合成前端任務(wù)的服務(wù)器稱為DSS服務(wù)器,把完成語音合成后端任務(wù)的客戶機稱為DSS客戶機。
同現(xiàn)有技術(shù)相比,本發(fā)明具有突出的實質(zhì)性特點和顯著的技術(shù)進步,主要表現(xiàn)在以下方面1)提出分布式計算方案在無線移動場合的應(yīng)用,由于終端的移動狀態(tài)和操作屏幕的天然不兼容,使得語音合成成為必須。目前的移動終端設(shè)備由于計算能力低下,存儲容量小,無法進行十分復(fù)雜的計算和大量數(shù)據(jù)的存儲,但在終端(特別是通信終端)場合下,內(nèi)容往往是服務(wù)端(內(nèi)容提供端)集中生成的,因此在綜合帶寬等因素情況下,分布式計算成為有效且唯一解決方案;2)提出語音合成效果最佳化,終端空閑資源利用最大化,服務(wù)器和網(wǎng)絡(luò)負載最小化思想在大規(guī)模移動終端語音應(yīng)用的場合中,每一個終端設(shè)備均在某一原則的指導(dǎo)下,獲取最佳效果的語音合成服務(wù)。這個原則是盡可能地利用自身的空閑資源,以最大化的釋放網(wǎng)絡(luò)和服務(wù)器的負載,使得其它用戶可以方便地接入。
附圖概述圖1是傳統(tǒng)TTS系統(tǒng)的一般處理流程原理框圖;圖2本發(fā)明DSS系統(tǒng)的基本原理架構(gòu)圖;圖3是發(fā)明DSS系統(tǒng)中DSS服務(wù)器的基本結(jié)構(gòu)示意圖;圖4是發(fā)明DSS系統(tǒng)中DSS客戶機的基本結(jié)構(gòu)示意圖。
實施方式參見圖2,圖2給出了發(fā)明DSS系統(tǒng)的基本工作原理,C/S計算模式要求參與者有服務(wù)器、客戶機、數(shù)據(jù)交換標準和網(wǎng)絡(luò)協(xié)議四個組成部分。下面我們就這四個組成部分分別進行闡述。
1.DSS服務(wù)器DSS服務(wù)器指在DSS系統(tǒng)中,完成語音合成前端任務(wù)的執(zhí)行實體。一臺獨立的計算機是DSS服務(wù)器最常見的形式,但不限于此。DSS服務(wù)器接收文本(來自DSS客戶機或網(wǎng)絡(luò)上的Web服務(wù)器),經(jīng)過一系列的處理過程(語音合成前端),將其轉(zhuǎn)換為某種中間數(shù)據(jù)(相對于TTS系統(tǒng)的最終輸出——語音)輸出,這種輸出將被傳輸給DSS客戶機繼續(xù)處理。
由于需要與DSS客戶機和Web服務(wù)器交互,網(wǎng)絡(luò)連接成為必須,并且DSS服務(wù)器所接入的網(wǎng)絡(luò)必須支持HTTP傳輸協(xié)議。
DSS服務(wù)器的基本結(jié)構(gòu)如圖3所示DSS服務(wù)器包括以下幾個組成部件1)服務(wù)器核心引擎(Server Engine)指DSS服務(wù)器中,完成文本到某種中間數(shù)據(jù)轉(zhuǎn)換的功能部件,即實現(xiàn)語音合成前端的功能部件。
2)轉(zhuǎn)碼器(Transcoder)指DSS服務(wù)器中,將待合成的內(nèi)容轉(zhuǎn)換為文本的功能部件,待合成的內(nèi)容最常見的形式是將HTML、XML等轉(zhuǎn)為文本。
3)服務(wù)器瀏覽器(Server Browser)指DSS服務(wù)器中,負責獲取指定URL內(nèi)容的功能部件。
4)分布式語音合成網(wǎng)絡(luò)應(yīng)用協(xié)議(DSSNAP)指DSS服務(wù)器中,負責與DSS客戶機進行通信的功能部件。
5)服務(wù)器瀏覽器(Server Browser)指DSS服務(wù)器中,負責獲取指定URL內(nèi)服務(wù)器應(yīng)用程序開發(fā)接口(Server API)提供給第三方開發(fā)DSS服務(wù)器的應(yīng)用程序開發(fā)接口。
DSS服務(wù)器接受兩種來自DSS客戶機的請求,一是內(nèi)容請求(Content Request),表示DSS客戶機直接將帶合成內(nèi)容(文本或其它)發(fā)送給DSS服務(wù)器;二是URL請求(URL Request),表示DSS客戶機將URL發(fā)送給DSS服務(wù)器,由DSS服務(wù)器負責從網(wǎng)絡(luò)上獲取合成內(nèi)容。
DSS服務(wù)器獲取到合成內(nèi)容后,將非文本內(nèi)容送入轉(zhuǎn)碼器,得到文本。然后將文本送入核心引擎,得到中間數(shù)據(jù)。這種中間數(shù)據(jù)以CSSML(中文語音合成標記語言)的形式存在。有關(guān)CSSML的內(nèi)容,我們將在“中間數(shù)據(jù)交換標準”一節(jié)中進行闡述。
在URL請求模式中,如果URL指向一CSSML文檔,這個文檔將直接被送給DSS客戶機,因為它已不需要DSS服務(wù)器的處理。
2.DSS客戶機DSS客戶機指在DSS系統(tǒng)中,完成語音合成后端任務(wù)的執(zhí)行實體。一臺獨立的計算機是DSS客戶機最常見的形式,但不限于此。DSS客戶機接收某種中間數(shù)據(jù)(來自DSS服務(wù)器或網(wǎng)絡(luò)上的Web服務(wù)器),經(jīng)過一系列的處理過程(語音合成后端),將其轉(zhuǎn)換為最終語音輸出,完成TTS系統(tǒng)的完整處理過程。
由于需要與DSS服務(wù)器和Web服務(wù)器交互,網(wǎng)絡(luò)連接成為必須,并且DSS客戶機所接入的網(wǎng)絡(luò)必須支持HTTP傳輸協(xié)議。
DSS客戶機的基本結(jié)構(gòu)如圖2.3所示DSS客戶機包括以下幾個組成部件1)客戶機核心引擎(Server Engine)指DSS客戶機中,完成某種中間數(shù)據(jù)到語音轉(zhuǎn)換的功能部件,即實現(xiàn)語音合成后端的功能部件。
2)分布式語音合成網(wǎng)絡(luò)應(yīng)用協(xié)議(DSSNAP)指DSS客戶機中,負責與DSS服務(wù)器進行通信的功能部件。
3)客戶機應(yīng)用程序開發(fā)接口(Client API)提供給第三方開發(fā)DSS客戶機的應(yīng)用程序開發(fā)接口。
DSS客戶機可以向DSS服務(wù)器發(fā)出兩種請求,即內(nèi)容請求和URL請求,作用與DSS服務(wù)器完全對應(yīng)。DSS客戶機從DSS服務(wù)器或Web服務(wù)器接收某種中間數(shù)據(jù)(以CSSML形式存在),將其轉(zhuǎn)換為語音輸出。
3.中間數(shù)據(jù)交換標準在分布式計算系統(tǒng)中,特別是在C/S模式下,服務(wù)器和客戶機協(xié)同工作,共同完成某件任務(wù)。因此,服務(wù)器和客戶機之間必然需要交換具有一定格式和意義的數(shù)據(jù)。我們來考察圖1.1傳統(tǒng)TTS系統(tǒng)的一般處理流程。該圖指出,傳統(tǒng)TTS系統(tǒng),按照處理環(huán)節(jié)相對獨立、邊界清晰度大的原則,可以分為文本預(yù)處理、語言分析、韻律生成、語音單元挑選、語音合成五個模塊。劃分語音合成前后端,就是哪些模塊放在服務(wù)器處理,哪些模塊放在客戶機處理的問題。由于前后端劃分必須遵循處理環(huán)節(jié)連續(xù)的原則,因此,針對TTS系統(tǒng),有如下表所列的六種劃分方法名 前端(服務(wù)器執(zhí)行)處 后端(客戶機執(zhí)行)處 中間交換數(shù)據(jù)稱 理環(huán)節(jié) 理環(huán)節(jié)純 文本預(yù)處理 純文本文 語言分析本 韻律生成層 語音單元挑選語音合成標 文本預(yù)處理 語言分析文本預(yù)處理結(jié)記 韻律生成果文 語音單元挑選本 語音合成層語 文本預(yù)處理 韻律生成語言分析結(jié)果言 語言分析語音單元挑選分 語音合成析層韻 文本預(yù)處理 語音單元挑選 韻律分析結(jié)果律 語言分析語音合成分 韻律生成析層音 文本預(yù)處理 語音合成 音元屬性序列元 語言分析屬 韻律生成性 語音單元挑選層語 文本預(yù)處理 語音音 語言分析層 韻律生成語音單元挑選語音合成上表中第一層純文本層和第六層語音層,其合成方式屬于現(xiàn)有技術(shù),分別對應(yīng)現(xiàn)有的Client-Only和Server-Only兩種架構(gòu)。本發(fā)明涉及的技術(shù)解決方案提出了第二層至第五層所列的具體合成方式。
上述語音合成前后端的不同劃分方法,對服務(wù)器負載、客戶機負載、網(wǎng)絡(luò)帶寬等的要求不同。因為服務(wù)器負載、客戶機負載、網(wǎng)絡(luò)帶寬是隨時變動的,因此,DSS采取這樣的策略,在任何時刻,語音合成前后端的劃分,取決于該時刻服務(wù)器負載、客戶機負載、網(wǎng)絡(luò)帶寬的綜合評估。
針對上表中的6種劃分方法中的第2~4種,決定了DSS服務(wù)器和DSS客戶機之間共有4種中間數(shù)據(jù)交換內(nèi)容。我們基于XML結(jié)構(gòu)化文檔基礎(chǔ)上,提出層次化中文語音合成標注語言(ML-CSSML),對這4種中間數(shù)據(jù)交換內(nèi)容進行了全面的描述,作為DSS系統(tǒng)中間數(shù)據(jù)交換標準。
4.網(wǎng)絡(luò)與協(xié)議DSS服務(wù)器和DSS客戶機之間的通信除了遵循一定的數(shù)據(jù)交換標準之外,還必須遵循一定的協(xié)議標準,以定義DSS服務(wù)器和DSS客戶機的交互行為。根據(jù)語音合成固有的請求/響應(yīng)機制,我們基于HTTP協(xié)議基礎(chǔ)之上,制定分布式語音合成網(wǎng)絡(luò)應(yīng)用協(xié)議(DSSNAP)。它具有如下主要特性1)動態(tài)仲裁根據(jù)服務(wù)器負載、客戶機負載、網(wǎng)絡(luò)帶寬綜合因素,動態(tài)仲裁使用何種數(shù)據(jù)交換標準。仲裁的原則是終端空閑資源利用最大化,服務(wù)器和網(wǎng)絡(luò)負載最小化。
在合成語音效果保證的前提下,盡可能最大化地使用終端的資源,以釋放服務(wù)器和網(wǎng)絡(luò)負載,從而允許更多的終端訪問,使大應(yīng)用環(huán)境的建立成為可能。
2)負載平衡根據(jù)服務(wù)器負載情況,自動將客戶機的請求導(dǎo)向負載較小的服務(wù)器,以實現(xiàn)負載平衡。
3)數(shù)據(jù)壓縮DSS系統(tǒng)的中間交換數(shù)據(jù)以CSSML為載體?;赬ML的CSSML文檔,由于以文本的形式描述結(jié)構(gòu)化數(shù)據(jù),而這種結(jié)構(gòu)化數(shù)據(jù)要求具一致性資源定位法。用于指明資料在互聯(lián)網(wǎng)絡(luò)上的取得方式與位置。其格式為通訊協(xié)議//服務(wù)器地址通訊端口/路徑/文件名。例如http//www.hljucm.net.cnHTML(Hyper Text Markup Language)超文本標識語言。是用于創(chuàng)建網(wǎng)頁的編程語言。XML(Extensible Markup Language)可擴展標記語言。使用它就可以以容易而一致的方式格式格式化和傳送數(shù)據(jù)。Server API(Server Application Programming Interface)服務(wù)器應(yīng)用程序開發(fā)接口。指提供給第三方開發(fā)DSS服務(wù)器的開發(fā)接口。CSSML(Chinese Speech Synthesis Markup language)中文語音合成標注語言。DSS服務(wù)器與客戶機之間進行通信必須遵循的中間數(shù)據(jù)交換標準,是一種基于可擴展標注語言XML的語音合成前后端之間數(shù)據(jù)交換的載體。DSSNAP(DSS Net Application Protocol)分布式語音合成網(wǎng)絡(luò)應(yīng)用協(xié)議。DSS服務(wù)器與客戶機之間進行通信必須遵循的協(xié)議標準。Client API客戶機應(yīng)用程序開發(fā)接口。指提供給第三方開發(fā)DSS客戶機的開發(fā)接口。ML-CSSML(Multi-layer CSSML)層次化中文語音合成標注語言。由于DSS系統(tǒng)中存在不同層次的中間交換數(shù)據(jù),因此,作為數(shù)據(jù)交換的載體的CSSML也必須是相應(yīng)層次化的,以描述各個層次的中間交換數(shù)據(jù)。DSS定制應(yīng)用模式介于離線和在線兩種模式之中的DSS應(yīng)用模式。它指DSS服務(wù)器和客戶機需要實時通信,但通信的手段、方法、內(nèi)容可以根據(jù)具體應(yīng)用定制,不受DSSNAP的制約。
權(quán)利要求
1.一種分布式語音合成系統(tǒng),其特征在于系統(tǒng)包括語音合成前端處理環(huán)節(jié)和語音合成后端處理環(huán)節(jié),所述的語音合成前端環(huán)節(jié)運行在服務(wù)器上,語音合成后端環(huán)節(jié)運行在客戶機上,采用客戶/服務(wù)器(C/S)計算模式,服務(wù)器和客戶機之間通過數(shù)據(jù)交換標準和協(xié)議標準進行通信,共同完成整個TTS處理過程。
2.根據(jù)權(quán)利要求1所述的分布式語音合成系統(tǒng),其特征在于客戶/服務(wù)器(C/S)計算模式包括服務(wù)器、客戶機、數(shù)據(jù)交換標準及網(wǎng)絡(luò)協(xié)議標準四部分。
3.根據(jù)權(quán)利要求1或2所述的分布式語音合成系統(tǒng),其特征在于用于完成前端環(huán)節(jié)任務(wù)的DSS服務(wù)器,它接收文本,經(jīng)過一系列的處理過程,將其轉(zhuǎn)換為某種中間數(shù)據(jù)輸出,所輸出的中間數(shù)據(jù)傳輸給用于完成后端環(huán)節(jié)任務(wù)的DSS客戶機繼續(xù)處理。
4.根據(jù)權(quán)利要求3所述的分布式語音合成系統(tǒng),其特征在于所述的DSS客戶機繼續(xù)處理的環(huán)節(jié)至少包括文本預(yù)處理、語言分析、韻律生成、語音單元挑選、語音合成五個處理模塊中的一個或多個。
5.根據(jù)權(quán)利要求3所述的分布式語音合成系統(tǒng),其特征在于所述的DSS服務(wù)器包括以下幾個組成部件1)服務(wù)器核心引擎(Server Engine),它用于完成文本到某種中間數(shù)據(jù)轉(zhuǎn)換;2)轉(zhuǎn)碼器(Transcoder),待合成的內(nèi)容轉(zhuǎn)換為文本;3)服務(wù)器瀏覽器(Server Browser),負責獲取指定URL內(nèi)容;4)分布式語音合成網(wǎng)絡(luò)應(yīng)用協(xié)議(DSSNAP),負責與DSS客戶機進行通信的功能部件;5)服務(wù)器應(yīng)用程序開發(fā)接口(Server API),提供給第三方開發(fā)DSS服務(wù)器的應(yīng)用程序開發(fā)接口。
6.根據(jù)權(quán)利要求3所述的分布式語音合成系統(tǒng),其特征在于DSS客戶機包括以下幾個組成部件1)客戶機核心引擎(Server Engine),完成某種中間數(shù)據(jù)到語音的轉(zhuǎn)換;2)分布式語音合成網(wǎng)絡(luò)應(yīng)用協(xié)議(DSSNAP),負責與DSS服務(wù)器進行通信;3)客戶機應(yīng)用程序開發(fā)接口(Client API)提供給第三方開發(fā)DSS客戶機的應(yīng)用程序開發(fā)接口。
7.根據(jù)權(quán)利要求5或6所述的分布式語音合成系統(tǒng),其特征在于DSS服務(wù)器接受兩種來自DSS客戶機的請求,一是內(nèi)容請求(Content Request),表示DSS客戶機直接將待合成內(nèi)容(文本或其它)發(fā)送給DSS服務(wù)器,二是URL請求(URL Request),表示DSS客戶機將URL發(fā)送給DSS服務(wù)器,由DSS服務(wù)器負責從網(wǎng)絡(luò)上獲取合成內(nèi)容;DSS客戶機可以向DSS服務(wù)器發(fā)出兩種請求,即內(nèi)容請求和URL請求,作用與DSS服務(wù)器相互對應(yīng),DSS客戶機從DSS服務(wù)器或Web服務(wù)器接收某種中間數(shù)據(jù)(以CSSML形式存在),將其轉(zhuǎn)換為語音輸出;DSS客戶機和Web服務(wù)器通過網(wǎng)絡(luò)連接,并且DSS服務(wù)器所接入的網(wǎng)絡(luò)支持HTTP傳輸協(xié)議。
全文摘要
本發(fā)明公開一種分布式語音合成系統(tǒng),其特征在于:系統(tǒng)包括語音合成前端處理環(huán)節(jié)和語音合成后端處理環(huán)節(jié),所述的語音合成前端環(huán)節(jié)運行在服務(wù)器上,語音合成后端環(huán)節(jié)運行在客戶機上,采用客戶/服務(wù)器(C/S)計算模式,服務(wù)器和客戶機之間通過數(shù)據(jù)交換標準和協(xié)議標準進行通信,共同完成整個TTS處理過程。這個原則是:盡可能地利用自身的空閑資源,以最大化的釋放網(wǎng)絡(luò)和服務(wù)器的負載,使得其它用戶可以方便地接入。
文檔編號G10L13/00GK1384489SQ02108890
公開日2002年12月11日 申請日期2002年4月22日 優(yōu)先權(quán)日2002年4月22日
發(fā)明者唐浩, 尹波 申請人:安徽中科大訊飛信息科技有限公司