專(zhuān)利名稱(chēng):基于可變速語(yǔ)音編碼的語(yǔ)音合成器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音合成。特別是,本發(fā)明涉及對(duì)由可變速聲碼器編碼的話音的合成。本發(fā)明還涉及語(yǔ)音合成與無(wú)線通信設(shè)備的合用。
相關(guān)技術(shù)描述電子語(yǔ)音合成在許多應(yīng)用中都十分有用。越來(lái)越多的計(jì)算機(jī)和其它電子設(shè)備提供有聲提示的選項(xiàng)作為用戶(hù)接口。例如,可利用語(yǔ)音來(lái)讀取電子郵件消息、產(chǎn)生在語(yǔ)音響應(yīng)系統(tǒng)中的口頭提示或者向汽車(chē)上的司機(jī)指明方向。
一般有兩種語(yǔ)音合成器或技術(shù)用來(lái)產(chǎn)生話音。第一種被稱(chēng)為文本語(yǔ)音(TTS)語(yǔ)音合成器,而且是根據(jù)語(yǔ)法的?;赥TS的系統(tǒng)將普通文本轉(zhuǎn)換成可理解且自然發(fā)聲的語(yǔ)音。它對(duì)于需要將任意輸入的文本自動(dòng)轉(zhuǎn)換成可理解且自然發(fā)聲的語(yǔ)音輸出的應(yīng)用十分有用。它對(duì)于包含大量詞匯和/或動(dòng)態(tài)改變數(shù)據(jù)的情況特別有用。TTS系統(tǒng)在諸如提供自動(dòng)語(yǔ)音警報(bào)和提示、校讀(proofreading)、接入數(shù)據(jù)庫(kù)的電話入口和將電子郵件轉(zhuǎn)換成語(yǔ)音郵件或音頻輸出的應(yīng)用十分有用。由于TTS是靈活和有力的,所以它可用于多種應(yīng)用。然而,實(shí)施TTS系統(tǒng)可能需要龐大的存儲(chǔ)和處理能力資源。如果合成器沒(méi)有近似地模擬人語(yǔ)音語(yǔ)調(diào),那么它還可能包括機(jī)器音調(diào)(machine tone)。因此,對(duì)具有有限存儲(chǔ)和處理資源的應(yīng)用(諸如,小型便攜式無(wú)線裝置、遠(yuǎn)程通信裝置或計(jì)算機(jī)等),TTS不是實(shí)用的選擇。
第二種語(yǔ)音合成器是基于語(yǔ)音編碼器(聲碼器)的。聲碼器通過(guò)提取與人語(yǔ)音生成模型相關(guān)的參數(shù)來(lái)壓縮發(fā)出的語(yǔ)音或者音頻信號(hào)。聲碼器已發(fā)展到壓縮已被數(shù)字變換到速率為64千比特/秒(kbps)的輸入語(yǔ)音降至13kbps、8kbps或更低速率?;诼暣a器的語(yǔ)音合成器產(chǎn)生對(duì)于或用于要合成的語(yǔ)音的某些參數(shù)。將參數(shù)存儲(chǔ)在某些類(lèi)型的存儲(chǔ)器中,最好是快閃存儲(chǔ)器,而且一旦語(yǔ)音合成就對(duì)其進(jìn)行解碼。由于要合成的所有字的參數(shù)都需要存儲(chǔ)在存儲(chǔ)器中,所以基于聲碼器的合成器更加適于不需要大量詞匯的應(yīng)用。它們特別適于具有有限存儲(chǔ)和處理資源的系統(tǒng)。
對(duì)于基于聲碼器的語(yǔ)音合成器,在保持可接受的語(yǔ)音質(zhì)量時(shí)需要有最優(yōu)化存儲(chǔ)用途。對(duì)于一些應(yīng)用,理想的是,對(duì)于給定的存儲(chǔ)器規(guī)模,使詞匯量最大。此外,也是理想的是,將在給定通信系統(tǒng)設(shè)計(jì)內(nèi)已獲得的信號(hào)處理資源用來(lái)實(shí)現(xiàn)語(yǔ)音合成。本發(fā)明通過(guò)下列方法提供處理這些和其它特征的語(yǔ)音合成器。
發(fā)明概述本發(fā)明是一種根據(jù)可變速聲編碼(vocoding)的語(yǔ)音合成的裝置和方法。由可變速聲碼器對(duì)要合成的語(yǔ)音進(jìn)行編碼。可變速聲碼器根據(jù)在語(yǔ)音幀內(nèi)發(fā)生的語(yǔ)音活動(dòng),以一組預(yù)定速率之一,編碼語(yǔ)音幀。在一個(gè)實(shí)施例中,可變速聲碼器是碼激勵(lì)線性預(yù)測(cè)(code excited linear prediction)(CELP)聲碼器,它具有4種比特率。于是,以4種速率之一,運(yùn)用對(duì)于所選速率的CELP編碼方案,將輸入語(yǔ)音信號(hào)編碼成語(yǔ)音參數(shù)。一般,向解碼器提供語(yǔ)音參數(shù),其中解碼器根據(jù)所用的可變速編碼方案,執(zhí)行可變速解碼方案。解碼器提供語(yǔ)音采樣,向編碼器-解碼器或編解碼器提供用于數(shù)字-模擬轉(zhuǎn)換。于是,通過(guò)揚(yáng)聲器或其它已知的音頻輸出裝置廣播由編解碼器產(chǎn)生的所得模擬信號(hào)作為合成語(yǔ)音。
本發(fā)明的語(yǔ)音合成器特別適合在無(wú)線通信系統(tǒng)中使用,其中在該系統(tǒng)中已執(zhí)行可變速聲編碼。在這些系統(tǒng)中,將現(xiàn)有的聲編碼資源用于語(yǔ)音合成。另一方面,可結(jié)合少量的存儲(chǔ)器使用DSP元件(現(xiàn)有的或容易結(jié)合的),以提供語(yǔ)音合成器功能。此外,基于可變速聲編碼的語(yǔ)音合成器能夠提供良好的語(yǔ)音質(zhì)量,而無(wú)需大量?jī)?nèi)存。由可變速聲碼器提供的壓縮程度使得它適于具有有限的內(nèi)存的應(yīng)用。
附圖簡(jiǎn)述結(jié)合附圖,從下面的詳細(xì)描述,本發(fā)明的特征、目的和優(yōu)點(diǎn)將顯而易見(jiàn),在附圖中相同標(biāo)號(hào)做相應(yīng)表示,其中
圖1是可變速聲碼器的方框圖;和圖2是本發(fā)明的語(yǔ)音合成器的方框圖。
較佳實(shí)施例的詳細(xì)描述本發(fā)明提供當(dāng)結(jié)合無(wú)線通信設(shè)備一起使用時(shí)特別有用的合成語(yǔ)音的裝置和方法。本發(fā)明利用在無(wú)線通信設(shè)備中的現(xiàn)有信號(hào)處理資源或者最少量的附加硬件以提供高語(yǔ)音質(zhì)量并要求小存儲(chǔ)量的方式來(lái)合成語(yǔ)音。
本發(fā)明在結(jié)合多種已知的通信裝置或系統(tǒng)使用時(shí)是十分有用的,并在下面參照CDMA無(wú)線通信系統(tǒng)對(duì)它進(jìn)行描述。此外,應(yīng)理解,它特別適于特定應(yīng)用,諸如用來(lái)安裝和操作車(chē)輛內(nèi)無(wú)線裝置的免提(hands-free)汽車(chē)配套設(shè)備。然而,熟悉本領(lǐng)域的人員容易理解這并不是對(duì)本發(fā)明進(jìn)行限制,而且它還可結(jié)合其它類(lèi)型的通信設(shè)備(包括,那些通過(guò)有線的、電纜或光纜類(lèi)系統(tǒng)通信以及那些運(yùn)用其它信號(hào)調(diào)制技術(shù)的裝置)一起使用。
示例無(wú)線通信系統(tǒng)利用碼分多址(CDMA)調(diào)制技術(shù)。雖然已知其它技術(shù)(諸如,時(shí)分多址(TDMA)、頻分多址(FDMA)和諸如幅度壓擴(kuò)單邊帶的調(diào)幅(AM)方案),但是CDMA具有優(yōu)于其它這些技術(shù)的顯著優(yōu)點(diǎn)。在美國(guó)專(zhuān)利號(hào)4,901,307(題為“運(yùn)用衛(wèi)星或地面中繼站的擴(kuò)展頻譜多址通信系統(tǒng)(SpreadSpectrum Multiple Access Communication System Using Satellite OrTerrestrial Repeaters)”,已轉(zhuǎn)讓給本發(fā)明的受讓人并作為參考資料在此引入)中揭示了在多址通信系統(tǒng)中CDMA技術(shù)的運(yùn)用。
出于多個(gè)理由,在無(wú)線通信裝置或設(shè)備中可以實(shí)施語(yǔ)音合成器。例如,語(yǔ)音合成可以是在無(wú)線電話或用于支持在汽車(chē)中操作的“免提”汽車(chē)配套設(shè)備中的一部分語(yǔ)音識(shí)別系統(tǒng)。當(dāng)裝置用戶(hù)或操作者不能用肉眼觀察輸出屏幕或裝置上的指示符時(shí),語(yǔ)音合成器可用音頻形式提供信息。例如,可提供信息以允許當(dāng)車(chē)輛司機(jī)或機(jī)器操作者不近距離不能安全地察看通信裝置時(shí)操作或輸出。語(yǔ)音合成器還允許通過(guò)提供用于要執(zhí)行的操作的語(yǔ)音提示,來(lái)裝置免提操作。例如,語(yǔ)音合成器可能要求呼叫人名,允許裝置自動(dòng)撥打電話號(hào)碼或者要求執(zhí)行諸如撥號(hào)、存儲(chǔ)、打開(kāi)郵件、終止嘗試打電話或關(guān)閉等的命令。
在一個(gè)實(shí)施例中,本發(fā)明的語(yǔ)音合成器使用已經(jīng)出現(xiàn)在多種無(wú)線裝置(諸如無(wú)線電話和由通信服務(wù)用戶(hù)用來(lái)產(chǎn)生發(fā)音語(yǔ)音的其它產(chǎn)品)中的聲碼器電路。特別是,基于可變速聲碼器的語(yǔ)音合成器。可變速聲碼器運(yùn)用語(yǔ)音活動(dòng)來(lái)改變它的瞬間數(shù)據(jù)速率。在現(xiàn)行說(shuō)話期間,聲碼器編碼器用大量的位來(lái)編碼語(yǔ)音采樣。在靜默期間,聲碼器編碼器幾乎不用或且較少量的位來(lái)編碼背景噪聲。在美國(guó)專(zhuān)利5,414,796中(題為“可變速聲碼器(Varaible Rate Vocoder)”,已轉(zhuǎn)讓給本發(fā)明的受讓人,并作為參考資料在此引入)中描述了一種可變速聲碼器的示例實(shí)施例。
通常在CDMA類(lèi)通信系統(tǒng)中使用可變速聲碼器來(lái)通過(guò)減小每個(gè)通信信號(hào)所用的比特?cái)?shù)來(lái)增加系統(tǒng)容量。例如,可在上述專(zhuān)利4,901,307的CDMA通信系統(tǒng)中執(zhí)行可變速聲碼器。在CDMA通信系統(tǒng)中,不同用戶(hù)運(yùn)用相同的帶寬但用不同的碼信道來(lái)進(jìn)行通信。在CDMA通信系統(tǒng)中的可變速聲碼器利用用戶(hù)僅在任一給定信道上的40%時(shí)間內(nèi)說(shuō)話的這一事實(shí)。當(dāng)用戶(hù)靜默時(shí)通過(guò)發(fā)送較少的位,可變速聲碼器允許更多用戶(hù)共享相同帶寬。
圖1示出典型的可變速聲碼器的示意方框圖,而且概括地用100表示。如圖1所示的聲碼器運(yùn)用了4個(gè)不同的數(shù)據(jù)速率,雖然應(yīng)理解可用不同數(shù)量的數(shù)據(jù)速率(如現(xiàn)有技術(shù)中已知的那樣)。在這組4個(gè)速率中,如果峰值速率是13.2kbps,那么全速對(duì)應(yīng)于13.2kbps、1/2速率對(duì)應(yīng)于約6.2kbps、1/4速率對(duì)應(yīng)于約2.7kbps和1/8速率對(duì)應(yīng)于約1.0kbps。注意,如現(xiàn)有技術(shù)中已知的那樣,由于運(yùn)用附加位,所以對(duì)于除全速之外的其它速率的實(shí)際比特率都是近似的。
仍然參考圖1,可見(jiàn)可變速聲碼器100包括編碼器102和解碼器104。編碼器102接收用于語(yǔ)音數(shù)據(jù)幀的語(yǔ)音采樣作為輸入,例如,在64kbps數(shù)據(jù)速率時(shí)以mu-定律(mu-Law)或a定律(a-law)格式的8位PCM采樣。編碼器102根據(jù)語(yǔ)音活動(dòng),以4個(gè)數(shù)據(jù)速率之一將這些語(yǔ)音采樣編碼成語(yǔ)音參數(shù)。還向速率確定元件106提供輸入語(yǔ)音采樣。
速率確定元件106可執(zhí)行多個(gè)速率判定算法中的任一個(gè)算法。在一個(gè)實(shí)施例中,用與背景噪聲能量級(jí)相關(guān)的閾值來(lái)確定語(yǔ)音活動(dòng),以及編碼輸入采樣的速率。如果語(yǔ)音采樣的當(dāng)前幀的能量遠(yuǎn)高于背景噪聲能量,那么速率確定元件106將確定以全速編碼幀。如果當(dāng)前幀的能量接近背景噪聲能量,那么如已知的那樣,速率確定元件106將確定以八分之一速率編碼幀,等等。
在待批美國(guó)專(zhuān)利申請(qǐng)?zhí)?8/286,842(發(fā)明名稱(chēng)為“執(zhí)行減速可變速聲編碼的方法和裝置(Method And Appratus For Performing Reduced Rate VariableRate Vocoding)”,轉(zhuǎn)讓給本發(fā)明的受讓人并作為參考資料在此引入)中揭示了另一種速率確定技術(shù)。該技術(shù)提供被稱(chēng)為模式測(cè)量(mode measure)的一組速率確定準(zhǔn)則。第一模式測(cè)量是來(lái)自前一編碼幀的目標(biāo)匹配信噪比(TMSNR),它通過(guò)將合成的語(yǔ)音信號(hào)與輸入語(yǔ)音信號(hào)相比較提供關(guān)于編碼模型執(zhí)行得有多好的信息。第二模式測(cè)量是歸一化自相關(guān)函數(shù)(NACF),它測(cè)量在語(yǔ)音幀內(nèi)的定期性。第三模式測(cè)量是零交叉(ZC)參數(shù),它測(cè)量在輸入語(yǔ)音幀內(nèi)的高頻率內(nèi)容。第四測(cè)量,預(yù)定增益差分(PGD),確定編碼器是否保持它的預(yù)定效率。第五測(cè)量是能量差分(ED),它將在當(dāng)前幀中的能量與平均幀能量作比較。
運(yùn)用上述模式測(cè)量,速率確定邏輯選擇用于每個(gè)輸入語(yǔ)音數(shù)據(jù)幀的編碼速率。對(duì)于各模式的值例如從4個(gè)或更多模式中選擇要操作的一個(gè)模式。即,根據(jù)預(yù)定模式或分級(jí),對(duì)于與門(mén)限或其它準(zhǔn)則相關(guān)的每個(gè)模式測(cè)量檢測(cè)到的值確定選擇哪個(gè)編碼速率。例如,如果對(duì)于NACF的值小于預(yù)選門(mén)限和ZC大于第二預(yù)選門(mén)限,可選擇一速率。然而,如果沒(méi)有滿(mǎn)足這些條件,但是ED低于第三門(mén)限,那么可選擇四分之一速率。如果對(duì)于TSNR的值更大、PGD更少而且NACF分別大于第四、第五和第六門(mén)限,那么可選擇半速。熟悉本技術(shù)領(lǐng)域的人員可采用各種這樣的組合和門(mén)限來(lái)選擇編碼速率。
應(yīng)理解,速率確定元件106還可采用其它速率確定技術(shù)。
仍然參照?qǐng)D1,一個(gè)由速率確定元件106確定的數(shù)據(jù)速率的指示信號(hào)提供給開(kāi)關(guān)108。開(kāi)關(guān)108從全速編碼元件110、半速編碼元件112、四分之一速率編碼元件114和八分之一速率編碼元件116之間選擇一個(gè)元件,用于編碼輸入語(yǔ)音采樣幀,如數(shù)據(jù)速率信號(hào)所指定的那樣。所選編碼元件對(duì)語(yǔ)音采樣進(jìn)行編碼以產(chǎn)生編碼數(shù)據(jù)分組的信號(hào)。速率確定元件106還向開(kāi)關(guān)118提供指示數(shù)據(jù)速率的信號(hào),上述開(kāi)關(guān)選擇與開(kāi)關(guān)108相同的編碼元件,從而可向可變速聲碼器的輸出提供所選編碼元件產(chǎn)生的編碼數(shù)據(jù)分組的信號(hào)。
將編碼元件110、112、114和116中的每一個(gè)元件配置成運(yùn)用預(yù)定編碼方案編碼語(yǔ)音。在較佳實(shí)施例中使用基于線性預(yù)測(cè)的編碼方案(諸如,代碼激勵(lì)線性預(yù)測(cè)(Code Excited Linear Predictive)(CELP)編碼器。在Thomas E.Tremain等人所著的論文“4.8Kbps代碼激勵(lì)線性預(yù)測(cè)編碼器(A 4.8Kbps CodeExcited Linear Predictive Coder)”(移動(dòng)衛(wèi)星會(huì)議進(jìn)程(Proceedings of theMobile Satellite Conference),1998)中描述了CELP編碼器。通過(guò)去除在語(yǔ)音中固有的自然冗余,基于線性預(yù)測(cè)的編碼器壓縮語(yǔ)音。語(yǔ)音一般呈現(xiàn)由于嘴唇和舌頭的機(jī)械動(dòng)作所致的短期冗余和由于聲帶振動(dòng)所致的長(zhǎng)期冗余。線性預(yù)測(cè)方案模擬這些操作為濾波器、去除冗余并模擬所得剩余信號(hào)作為白高斯噪聲。因此,通過(guò)發(fā)送濾波器系數(shù)和量化噪聲而不是全帶寬語(yǔ)音信號(hào),線性預(yù)測(cè)編碼器獲得減小了的比特率。
采用可變速的線性預(yù)測(cè)編碼方案進(jìn)一步減小比特率,而不影響語(yǔ)音質(zhì)量。在圖1中,全速編碼元件110運(yùn)用更多位來(lái)對(duì)輸入語(yǔ)音信號(hào)的參數(shù)進(jìn)行編碼以便更好地保留輸入的特征。對(duì)于沒(méi)有檢測(cè)到任何語(yǔ)音的期間內(nèi),由于幾乎沒(méi)有獲得細(xì)節(jié)或有用的信息,所以八分之一速率編碼元件116運(yùn)用較少位對(duì)參數(shù)進(jìn)行編碼。由半速編碼元件112和四分之一編碼元件114對(duì)在現(xiàn)行語(yǔ)音期間和沒(méi)有檢測(cè)到語(yǔ)音期間之間的過(guò)渡進(jìn)行編碼。
現(xiàn)在參照可變速聲碼器的解碼元件,解碼器104接收編碼語(yǔ)音參數(shù)的信號(hào)以及指示用來(lái)編碼語(yǔ)音的速率的信號(hào)。速率提取元件128接收該輸入信號(hào)并確定語(yǔ)音的數(shù)據(jù)速率。還向開(kāi)關(guān)130提供數(shù)據(jù)速率的信號(hào),所述開(kāi)關(guān)從一組解碼元件中選擇解碼元件來(lái)正規(guī)地解碼輸入?yún)?shù)。在圖1中,提供4個(gè)解碼元件(全速解碼元件120、半速解碼元件122、四分之一速率解碼元件124和八分之一速率解碼元件126)在這4個(gè)可能的速率下解碼語(yǔ)音參數(shù)。所選解碼元件根據(jù)數(shù)據(jù)速率解碼輸入?yún)?shù)以產(chǎn)生解碼采樣信號(hào),所述采樣一般是64kpbs脈沖編碼調(diào)制(PCM)采樣。還向開(kāi)關(guān)132提供由速率提取元件128確定的數(shù)據(jù)速率的信號(hào)。開(kāi)關(guān)132選擇與開(kāi)關(guān)130相同的解碼元件,從而向聲碼器的輸出提供解碼采樣。
現(xiàn)在,參照?qǐng)D2,示出了根據(jù)本發(fā)明的原理操作的語(yǔ)音合成系統(tǒng)的方框圖,所述系統(tǒng)結(jié)合了可變速聲碼器。語(yǔ)音合成系統(tǒng)包括可變速編碼器202和語(yǔ)音合成器204??勺兯倬幋a器202的例子是圖1的編碼器102??勺兯倬幋a器202接收語(yǔ)音信號(hào)作為輸入并以一組預(yù)定速率之一編碼語(yǔ)音。在較佳實(shí)施例中,可變速編碼器202是CELP編碼器,它根據(jù)輸入語(yǔ)音段中的語(yǔ)音活動(dòng),以一個(gè)速率產(chǎn)生語(yǔ)音參數(shù)。
本發(fā)明運(yùn)用如上述美國(guó)專(zhuān)利5,414,796中所述的可變速聲碼器,該可變速聲碼器在市場(chǎng)上有售,例如高通公司生產(chǎn)的13kpbs聲碼器產(chǎn)品。在較佳實(shí)施例中,可變速解碼器是諸如根據(jù)IS127標(biāo)準(zhǔn)所述的增強(qiáng)型可變速解碼器。
在本發(fā)明的一個(gè)實(shí)施例中,編碼速率判定是根據(jù)上述“模式測(cè)量”。熟悉本技術(shù)領(lǐng)域的人員會(huì)理解,用來(lái)作出速率選擇的不同的準(zhǔn)則組合來(lái)產(chǎn)生所謂“減速的速率模式”或“模式”,并簡(jiǎn)稱(chēng)為模式0、模式1、模式2,等等。本發(fā)明可利用這種模式來(lái)作語(yǔ)音合成。
由可變速編碼器202接收到的語(yǔ)音可以是來(lái)自一預(yù)選詞匯表的字或短語(yǔ),其中設(shè)計(jì)諸如無(wú)線電話、車(chē)輛配套設(shè)備或其它通信裝置的通信裝置來(lái)合成上述預(yù)選詞匯表。該詞匯表可包括向裝置用戶(hù)提供的提示和警報(bào)。例如,通過(guò)提取和合成5個(gè)詞匯字“呼叫”、“重?fù)堋?、“程序”、“或”和“退出”,可將語(yǔ)音合成器設(shè)計(jì)成在從用戶(hù)的響應(yīng)請(qǐng)求中提供提示“呼叫、重?fù)?、程序或退出”。另一方面,可將語(yǔ)音合成器設(shè)計(jì)成響應(yīng)于各種裝置輸入(包括,音頻),向裝置用戶(hù)提供先前所存的信息(諸如在電話簿、查詢(xún)表或數(shù)據(jù)庫(kù)中)。把由可變速編碼器202接收到的語(yǔ)音編碼,并向語(yǔ)音合成器204的存儲(chǔ)元件或電路206提供已編碼的參數(shù)以存儲(chǔ)。
在一段時(shí)間內(nèi),存儲(chǔ)器206是用來(lái)保持或存儲(chǔ)參數(shù)以操作所需裝置。然而,通常理想的是,以使它們可更新或可替代(諸如,當(dāng)需要改變?cè)~匯表以改變條件或升級(jí)到裝置特征時(shí))的方式存儲(chǔ)參數(shù)。因此,以非易失但可重寫(xiě)存儲(chǔ)器的形式構(gòu)成存儲(chǔ)器206,其中如現(xiàn)有技術(shù)已知的那樣,可運(yùn)用快閃類(lèi)存儲(chǔ)器元件來(lái)實(shí)現(xiàn)上述非易失但可重寫(xiě)存儲(chǔ)器。
如人們所認(rèn)識(shí)到的那樣,可在根據(jù)本發(fā)明制造通信裝置期間執(zhí)行負(fù)載參數(shù)的操作。由于可預(yù)定要合成的提示和警報(bào),所以可在使用之前制造和存儲(chǔ)在快閃存儲(chǔ)器206期間,對(duì)這些進(jìn)行編碼。在裝置服務(wù)期間,可改變或替換參數(shù),或者通過(guò)用于無(wú)線裝置的新發(fā)展的空中編程技術(shù)來(lái)實(shí)現(xiàn)。
另一方面,在操作通信裝置期間,可變速編碼器202可接收語(yǔ)音信號(hào)輸入。例如,響應(yīng)于來(lái)自語(yǔ)音合成器的提示,用戶(hù)可提供口說(shuō)的響應(yīng)??勺兯偎俾示幋a器202將編碼用戶(hù)的語(yǔ)音,而且可向快閃存儲(chǔ)器206提供經(jīng)編碼的參數(shù)用于存儲(chǔ),和/或向語(yǔ)音識(shí)別器(未圖示)提供用于語(yǔ)音識(shí)別。通過(guò)這種方法,在制造之后(post manufacture)(諸如在裝置進(jìn)入實(shí)用服務(wù)的即時(shí)或超時(shí))就輸入?yún)?shù),諸如通過(guò)為每個(gè)裝置的(聲碼器)用戶(hù)建立與該用戶(hù)的要求相關(guān)的詞匯庫(kù)來(lái)實(shí)現(xiàn)。
快閃存儲(chǔ)器206應(yīng)具有足以存儲(chǔ)預(yù)選詞匯表的參數(shù)以及用戶(hù)預(yù)期的參數(shù)的規(guī)模。于是,根據(jù)特定應(yīng)用的要求可改變快閃存儲(chǔ)器206的大小。制造后的存儲(chǔ)器可具有減小存儲(chǔ)要求的優(yōu)點(diǎn),因?yàn)榕c制造商為了覆蓋整個(gè)較大裝置市場(chǎng)而必需安裝的詞匯表相比,每個(gè)裝置用戶(hù)不要求如此大的詞匯表。語(yǔ)音合成器可通過(guò)檢測(cè)目標(biāo)或所需短語(yǔ)或語(yǔ)音的端點(diǎn)、去除靜默或冗余并對(duì)其編碼來(lái)記錄名字或其它字,諸如“Fred Smith”。因此,可在線記錄語(yǔ)音并隨后用于合成語(yǔ)音輸出。
應(yīng)注意,可根據(jù)可用的存儲(chǔ)器和所需語(yǔ)音質(zhì)量來(lái)配置可變速編碼器202。在具有4個(gè)速率的系統(tǒng)中,其中全速是13kbps,根據(jù)40%語(yǔ)音活動(dòng),平均速率一般是5.88kbps。對(duì)可變速的運(yùn)用提供了高語(yǔ)音質(zhì)量。然而,如果存儲(chǔ)器大小是被限定的,那么可變速編碼器202被配置成假設(shè)以固定的半速(約800字節(jié)/秒)操作。否則,可從一預(yù)定速率組的子集中選擇速率,而不是從整個(gè)速率組中選擇。例如,可用上述的已減速的速率模式來(lái)選擇各速率。在本發(fā)明的一個(gè)實(shí)施例中,將速率分成一組4個(gè)模式,標(biāo)為模式0、1、2和3。運(yùn)用根據(jù)模式的固定速率,分別可采用大約1800字節(jié)/秒、1540字節(jié)/秒、1400字節(jié)/秒和1100字節(jié)/秒的速率。對(duì)這些固定的已減小速率的運(yùn)用允許以給定的預(yù)定數(shù)據(jù)速率傳遞質(zhì)量很高的語(yǔ)音,該質(zhì)量達(dá)到了陸上通訊線的質(zhì)量。這4種模式在合成語(yǔ)音質(zhì)量和存儲(chǔ)器必要的規(guī)格之間提供最佳折衷。
此外,根據(jù)應(yīng)用的瞬間要求,可變速編碼器202可在不同的操作模式之間(可變速、所有半速、可變速的子集,等等)轉(zhuǎn)換。由于在語(yǔ)音質(zhì)量和存儲(chǔ)器大小之間存在折衷,所以將采用的配置應(yīng)根據(jù)要實(shí)施的應(yīng)用。
當(dāng)需要語(yǔ)音合成時(shí),向可變速解碼器208提供存儲(chǔ)在快閃存儲(chǔ)器206中的語(yǔ)音參數(shù)。將可變速解碼器208配置成對(duì)通過(guò)與對(duì)應(yīng)的可變速編碼器202所產(chǎn)生的參數(shù)解碼??勺兯俳獯a器208的例子是圖1的解碼器104。
一般,將可變速解碼器208作為在通信裝置中使用的一部分?jǐn)?shù)字信號(hào)處理器(DSP)來(lái)實(shí)施。將這些DSP用作或形成用于信號(hào)編碼/解碼、組合、CDMA編碼、功率調(diào)節(jié),等等的處理元件。由于一般在可采用本發(fā)明的無(wú)線裝置和多種其它裝置中使用這些元件,所以利用它們的存在能夠十分經(jīng)濟(jì)地實(shí)施本發(fā)明。
為了要本發(fā)明實(shí)施解碼功能,在DSP中只要具有少量的存儲(chǔ)器或者耦合到DSP。在DSP中或運(yùn)用DSP的獨(dú)立解碼器要求很少量的內(nèi)存(程序和數(shù)據(jù))來(lái)獲得語(yǔ)音合成器能力。運(yùn)用諸如可從模擬裝置(Analog Devices)和高通公司(Qualcomm Inc.)購(gòu)得的著名的DSP電路和裝置,可實(shí)施語(yǔ)音合成器。
向編碼解碼器210提供一般以脈沖編碼調(diào)制(PCM)采樣形式的經(jīng)解碼的參數(shù)。編碼解碼器210將PCM采樣從數(shù)字格式轉(zhuǎn)換成模擬信號(hào)。向揚(yáng)聲器或其它已知音頻輸出裝置212提供模擬信號(hào),其中輸出裝置212將合成語(yǔ)音投向或廣播到能聽(tīng)到它的周?chē)难b置環(huán)境中。
因此,本發(fā)明提供基于可變速率聲編碼的語(yǔ)音合成器。語(yǔ)音合成器特別適用于已包括可變速聲碼器的無(wú)線通信裝置。換句話說(shuō),通過(guò)在程序或操作命令中的適當(dāng)變換或運(yùn)用控制硬件,語(yǔ)音合成器可采用現(xiàn)有的可變速聲碼器。此外,通過(guò)運(yùn)用可變速聲編碼,獲得的壓縮允許將預(yù)定詞匯表存儲(chǔ)在與它所連接的無(wú)線裝置或其它設(shè)備相關(guān)的大小限定的存儲(chǔ)器中。此外,在配置可變速聲碼器以向語(yǔ)音合成器提供所需的語(yǔ)音質(zhì)量和存儲(chǔ)器大小過(guò)程中,可考慮在語(yǔ)音質(zhì)量和存儲(chǔ)器大小之間進(jìn)行折衷。
本發(fā)明可用于多種通信裝置和接口設(shè)備。參照無(wú)線通信設(shè)備(諸如(但不限于)通常被稱(chēng)為用戶(hù)終端、訂戶(hù)單元、移動(dòng)站或簡(jiǎn)稱(chēng)為“用戶(hù)”、“移動(dòng)”或“訂戶(hù)”的蜂窩和衛(wèi)星電話),討論上述示例實(shí)施例。此外,還可考慮其它裝置,諸如消息接收機(jī)和數(shù)據(jù)傳遞裝置(例如,便攜式計(jì)算機(jī)、個(gè)人數(shù)據(jù)助理、調(diào)制解調(diào)器、機(jī)器控制器),或者可考慮用于公共電話交換網(wǎng)或?qū)S猛ㄐ判诺赖慕涌凇?br>
運(yùn)用以專(zhuān)用元件或用途特定集成電路(ASIC)形式的分立電路實(shí)施本發(fā)明以形成可安裝在所需裝置中的語(yǔ)音合成器。另一方面,通過(guò)運(yùn)用少量的附加存儲(chǔ)器來(lái)與現(xiàn)有數(shù)字信號(hào)處理元件一起工作,可將它加入其它ASIC和裝置中。
向熟悉本技術(shù)領(lǐng)域的人員提供較佳實(shí)施例的描述以制作或運(yùn)用本發(fā)明。對(duì)這些實(shí)施例的各種變換對(duì)于熟悉這些現(xiàn)有技術(shù)的人員而言是顯而易見(jiàn)的,而且可將這里定義的一般原理用于其它實(shí)施例,而不用進(jìn)行創(chuàng)造性勞動(dòng)。于是,本發(fā)明并不限于這里所示的實(shí)施例,而是根據(jù)這里揭示的原理和新穎性特征一致的最寬范圍。
權(quán)利要求
1.一種在無(wú)線通信系統(tǒng)中合成語(yǔ)音的裝置,其特征在于,包括存儲(chǔ)器,用于存儲(chǔ)由可變速編碼器編碼的語(yǔ)音參數(shù);可變速解碼器,用于解碼所述語(yǔ)音參數(shù)以產(chǎn)生經(jīng)解碼的語(yǔ)音采樣;和數(shù)字-模擬變換器,用于將所述語(yǔ)音采樣轉(zhuǎn)換成模擬信號(hào)以作為合成語(yǔ)音廣播。
2.如權(quán)利要求1所述的裝置,其特征在于,所述可變速編碼器是基于線性預(yù)測(cè)的。
3.如權(quán)利要求1所述的裝置,其特征在于,所述可變速解碼器是基于線性預(yù)測(cè)的。
4.如權(quán)利要求1所述的裝置,其特征在于,以一組可變速率編碼所述語(yǔ)音參數(shù),其中所述可變速率組包括全速、半速、四分之一速率和八分之一速率。
5.如權(quán)利要求4所述的裝置,其特征在于,所述全速是13.2kbps,所述半速約6.2kpbs、所述四分之一速率約2.7kbps,和所述八分之一速率約1.0kbps。
6.如權(quán)利要求4所述的裝置,其特征在于,以響應(yīng)于一個(gè)或多個(gè)測(cè)定模式準(zhǔn)則固定的速率編碼所述語(yǔ)音參數(shù)。
7.如權(quán)利要求4所述的裝置,其特征在于,以所述半速固定的速率編碼所述語(yǔ)音參數(shù)。
8.如權(quán)利要求4所述的裝置,其特征在于,根據(jù)對(duì)語(yǔ)音質(zhì)量和所述存儲(chǔ)器大小的要求,選擇編碼速率。
9.如權(quán)利要求1所述的裝置,其特征在于,所述無(wú)線通信系統(tǒng)是CDMA系統(tǒng)。
10.如權(quán)利要求1所述的裝置,其特征在于,還包括用于將語(yǔ)音編碼成所述語(yǔ)音參數(shù)的可變速編碼器。
11.如權(quán)利要求10所述的裝置,其特征在于,所述可變速編碼器對(duì)屬于預(yù)選詞匯表的語(yǔ)音編碼。
12.如權(quán)利要求10所述的裝置,其特征在于,所述可變速編碼器包括增強(qiáng)型可變速編碼器。
13.一種用于在無(wú)線通信系統(tǒng)中合成語(yǔ)音的方法,其特征在于,包括下列步驟檢索存儲(chǔ)在存儲(chǔ)器中的語(yǔ)音參數(shù),運(yùn)用可變速編碼方案編碼所述語(yǔ)音參數(shù);運(yùn)用可變速編碼方案解碼所述語(yǔ)音參數(shù)以產(chǎn)生經(jīng)解碼的語(yǔ)音采樣;和將所述語(yǔ)音采樣轉(zhuǎn)換成模擬信號(hào)以作為合成語(yǔ)音廣播。
14.如權(quán)利要求13所述的方法,其特征在于,所述可變速編碼方案是基于線性預(yù)測(cè)的。
15.如權(quán)利要求13所述的方法,其特征在于,所述可變速解碼方案是基于線性預(yù)測(cè)的。
16.如權(quán)利要求13所述的方法,其特征在于,以可變速率組編碼所述語(yǔ)音參數(shù),其中所述可變速率組包括全速、半速、四分之一速率和八分之一速率。
17.如權(quán)利要求16所述的方法,其特征在于,所述全速是13.2kbps,所述半速約6.2kpbs、所述四分之一速率約2.7kbps和所述八分之一速率約1.0kbps。
18.如權(quán)利要求16所述的方法,其特征在于,以響應(yīng)于一個(gè)或多個(gè)測(cè)定模式準(zhǔn)則固定的速率編碼所述語(yǔ)音參數(shù)。
19.如權(quán)利要求16所述的方法,其特征在于,以所述半速固定的速率編碼所述語(yǔ)音參數(shù)。
20.如權(quán)利要求16所述的方法,其特征在于,根據(jù)對(duì)語(yǔ)音質(zhì)量和所述存儲(chǔ)器尺寸的要求,選擇編碼速率。
21.如權(quán)利要求13所述的方法,其特征在于,所述無(wú)線通信系統(tǒng)包括CDMA系統(tǒng)。
22.如權(quán)利要求13所述的方法,其特征在于,還包括將輸入語(yǔ)音信號(hào)編碼成所述語(yǔ)音參數(shù)的步驟。
23.如權(quán)利要求22所述的方法,其特征在于,所述編碼步驟對(duì)屬于預(yù)選詞匯表的語(yǔ)音進(jìn)行編碼。
全文摘要
提供一種根據(jù)可變速聲編碼進(jìn)行語(yǔ)音合成的裝置和方法。由可變速聲碼器(202)編碼輸入的語(yǔ)音信號(hào),并且將語(yǔ)音信號(hào)的參數(shù)存在存儲(chǔ)器中。為了合成語(yǔ)音,可變速解碼器(208)解碼這些參數(shù)以產(chǎn)生語(yǔ)音采樣。編碼解碼器(210)將語(yǔ)音采樣從數(shù)字信號(hào)轉(zhuǎn)換成模擬信號(hào),并通過(guò)揚(yáng)聲器(212)將它廣播。
文檔編號(hào)H04J13/00GK1347548SQ00803589
公開(kāi)日2002年5月1日 申請(qǐng)日期2000年2月4日 優(yōu)先權(quán)日1999年2月8日
發(fā)明者張承純 申請(qǐng)人:高通股份有限公司