說話人可選的語音合成系統(tǒng)及其實現(xiàn)方法

文檔序號：2823984閱讀：215來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：說話人可選的語音合成系統(tǒng)及其實現(xiàn)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音合成系統(tǒng)，尤其是一種說話人可選的語音合成系統(tǒng)。本發(fā)明還涉及該語音合成系統(tǒng)的實現(xiàn)方法。
背景技術(shù)：
當(dāng)前的手機(jī)平臺一般以文字來表達(dá)短信或文本文件的內(nèi)容信息，形式單一，沒有趣味，互動性不強(qiáng)。而語音合成技術(shù)可以一定程度上地解決這一問題，即將文字信息轉(zhuǎn)換為音頻，用人聲把手機(jī)中的文字朗讀給用戶聽。但現(xiàn)有的語音合成系統(tǒng)大多是單一化的，一個合成系統(tǒng)一般只包括一到兩個說話人，仍不能滿足用戶多樣化的情感需求。如果用戶不喜歡系統(tǒng)自帶的說話人聲音，甚至還會對使用系統(tǒng)產(chǎn)生抵觸情緒。現(xiàn)有的技術(shù)能一定程度上解決上述問題，如中國專利號為200480010899. X，名稱為“依賴于源的文本到語音系統(tǒng)”的專利描述了一種從文本消息生成語音的方法，該方法包括確定與文本消息的源相關(guān)聯(lián)的聲音的語音特征向量，并且比較該語音特征向量和多個語者模型，但是其缺點是語者模型由系統(tǒng)給定并且固定，對于用戶要求的適應(yīng)性不強(qiáng)。中國專利號為01116305. 4，名稱為“由文本生成個性化語音的方法”的專利介紹了一種具體的生成自適應(yīng)模型的方法，但沒有闡述獲得目標(biāo)說話人語音數(shù)據(jù)的具體方法。另外，除了上述手機(jī)平臺外，目前還沒有對于其他平臺的、用戶體驗效果較好的語音合成系統(tǒng)。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種說話人可選的語音合成系統(tǒng)，它富有趣味性和表現(xiàn)力，不僅可以提升用戶之間溝通的樂趣(如手機(jī)用戶之間利用短信溝通的樂趣)，也可以提升用戶對于閱讀的體驗。為解決上述技術(shù)問題，本發(fā)明的說話人可選的語音合成系統(tǒng)，包括目標(biāo)說話人數(shù)據(jù)提取裝置，用于提取目標(biāo)說話人的語音數(shù)據(jù)，該數(shù)據(jù)包括音頻數(shù)據(jù)和對應(yīng)的文本數(shù)據(jù)；該裝置包括錄音模塊，用于錄制目標(biāo)說話人語音；帶音素特征的文本庫，用于提供給目標(biāo)說話人朗讀；語音識別模塊，用于將所錄制的目標(biāo)說話人語音(音頻數(shù)據(jù))轉(zhuǎn)化為對應(yīng)的文本數(shù)據(jù)；其中，該錄音模塊中，錄制目標(biāo)說話人語音的音源包括環(huán)境音、電話通話語音；模型自適應(yīng)裝置，用于生成和選取指定目標(biāo)說話人模型，該裝置包括說話人轉(zhuǎn)換模塊，用于根據(jù)目標(biāo)說話人的語音數(shù)據(jù)生成目標(biāo)說話人模型；目標(biāo)說話人模型庫，用于存儲目標(biāo)說話人模型；目標(biāo)說話人語音合成裝置，用于生成目標(biāo)說話人朗讀文本的合成語音，該裝置包括文本分析模塊，用于對朗讀文本進(jìn)行分析；語音合成模塊，用于生成指定目標(biāo)說話人的朗讀固定文本的合成語音。本發(fā)明的說話人可選的語音合成系統(tǒng)可以應(yīng)用于包括手機(jī)平臺、電子郵件平臺、語音播報平臺的語音合成系統(tǒng)。本發(fā)明要解決的另一技術(shù)問題是提供上述語音合成系統(tǒng)的實現(xiàn)方法。為解決上述技術(shù)問題，本發(fā)明的說話人可選的語音合成系統(tǒng)的實現(xiàn)方法，包括步驟(A)目標(biāo)說話人數(shù)據(jù)提取裝置采集目標(biāo)說話人的語音數(shù)據(jù)；(B)模型自適應(yīng)裝置根據(jù)目標(biāo)說話人的語音數(shù)據(jù)生成目標(biāo)說話人模型，并存儲至目標(biāo)說話人模型庫；(C)當(dāng)用戶激活該語音合成系統(tǒng)后，目標(biāo)說話人語音合成裝置按照下列步驟實現(xiàn)語音合成功能(1)用戶指定文本和人名；其中，對于應(yīng)用于手機(jī)平臺的語音合成系統(tǒng)中，用戶可以通過如下方式指定文本和人名①將語音合成系統(tǒng)中的目標(biāo)說話人模型與手機(jī)通訊錄的人名綁定，把以固定人名為發(fā)送者的短信作為指定文本，相關(guān)人名為指定人名；②以存儲在手機(jī)中的文本作為指定文本，用戶手動指定人名；(2)文本分析模塊分析文本；(3)語音合成模塊根據(jù)人名從目標(biāo)說話人模型庫中抽取對應(yīng)模型，并根據(jù)文本分析模塊的分析結(jié)果，生成目標(biāo)人朗讀文本的合成語音；(4)播放所合成的語音。所述步驟(A)中，目標(biāo)說話人數(shù)據(jù)提取裝置可由用戶自行決定以下列任一種方式對目標(biāo)說話人進(jìn)行語音數(shù)據(jù)提取(1)由目標(biāo)說話人朗讀目標(biāo)說話人數(shù)據(jù)提取裝置指定的帶音素特征的文本并用錄音模塊錄音，以指定的帶音素特征的文本作為文本數(shù)據(jù)，以所錄制的語音作為音頻數(shù)據(jù)；其中，指定的帶音素特征的文本中的漢字應(yīng)覆蓋所有音節(jié)；(2)由目標(biāo)說話人朗讀任意自選文本并用錄音模塊錄音，再由語音識別模塊將所錄制語音轉(zhuǎn)換為文本，以該文本作為文本數(shù)據(jù)，以所錄制的語音作為音頻數(shù)據(jù)；(3)利用錄音模塊錄制目標(biāo)說話人的通話語音，再由語音識別模塊將所錄制的語音轉(zhuǎn)換為文本，以該文本作為文本數(shù)據(jù)，以所錄制的語音作為音頻數(shù)據(jù)。方式( 和(3)中的錄音時間須滿足目標(biāo)說話人數(shù)據(jù)提取裝置的指定時間，若單次錄音的時長不滿足要求，則需要多次錄音使得音頻總時長滿足目標(biāo)說話人數(shù)據(jù)提取裝置的指定要求，并且將滿足要求的音頻總和作為目標(biāo)說話人的音頻數(shù)據(jù)。本發(fā)明的語音合成系統(tǒng)中，為了提高合成的目標(biāo)說話人的語音質(zhì)量，即獲得參數(shù)匹配度高的目標(biāo)說話人模型，該語音合成系統(tǒng)包含了含有完備音素特征的文本提供給目標(biāo)說話人朗讀并錄音；若用戶不喜歡該數(shù)據(jù)采集方式，也可讓目標(biāo)說話人朗讀任意長度的文本并錄音或錄制和目標(biāo)說話人的通話錄音，再用語音識別的方式識別文本內(nèi)容，錄音必須滿足指定時長。本發(fā)明的應(yīng)用于手機(jī)平臺的語音合成系統(tǒng)，能結(jié)合閱讀短信和閱讀手機(jī)文本兩種功能。另外，用戶可以將系統(tǒng)與手機(jī)通訊錄中的人名進(jìn)行綁定，利用目標(biāo)說話人的語音朗讀手機(jī)短信，也可以指定任意手機(jī)中的文本段落利用目標(biāo)說話人的語音朗讀；當(dāng)系統(tǒng)的目標(biāo)說話人模型庫和手機(jī)通訊錄中的人名進(jìn)行綁定，當(dāng)收到目標(biāo)說話人的短信時，用戶可以使用該人的聲音閱讀短信。對于其他手機(jī)所儲存的文本，該系統(tǒng)也可以讓用戶指定目標(biāo)說話人對其進(jìn)行朗讀。因此，本發(fā)明的語音合成系統(tǒng)富有趣味性和表現(xiàn)力，可以提升用戶之間溝通的樂趣，而且也可以提供多樣的閱讀體驗。另外，本發(fā)明的語音合成系統(tǒng)還可應(yīng)用于除手機(jī)外的平臺，如電子郵件平臺、語音播報平臺等。

下面結(jié)合附圖與具體實施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明圖1是本發(fā)明的語音合成系統(tǒng)的模塊示意圖；圖2是本發(fā)明的系統(tǒng)運行流程示意圖；圖3是本發(fā)明采集目標(biāo)說話人數(shù)據(jù)的流程示意圖。
具體實施例方式為對本發(fā)明的技術(shù)內(nèi)容、特點與功效有更具體的了解，現(xiàn)以手機(jī)平臺的說話人可選的語音合成系統(tǒng)為例并結(jié)合圖示的實施方式，詳述如下本發(fā)明的手機(jī)平臺的說話人可選的語音合成系統(tǒng)，是基于手機(jī)操作系統(tǒng)的嵌入式開發(fā)版本，可用于合成目標(biāo)說話人短信的語音并朗讀或者利用目標(biāo)說話人的語音朗讀指定的手機(jī)文本。該語音合成系統(tǒng)，包括目標(biāo)說話人數(shù)據(jù)提取裝置、模型自適應(yīng)裝置以及目標(biāo)說話人語音合成裝置。其中，該語音合成系統(tǒng)的模塊示意圖，如圖1所示。目標(biāo)說話人數(shù)據(jù)提取裝置，用于提取目標(biāo)說話人的語音數(shù)據(jù)，該數(shù)據(jù)包括音頻數(shù)據(jù)和對應(yīng)的文本數(shù)據(jù)。其中，該目標(biāo)說話人數(shù)據(jù)提取裝置包括錄音模塊，用于錄制目標(biāo)說話人語音；該錄音模塊可以對來自環(huán)境音或電話通話語音的音源進(jìn)行錄音；帶音素特征的文本庫，用于提供給目標(biāo)說話人朗讀；語音識別模塊，用于將所錄制的目標(biāo)說話人語音轉(zhuǎn)化為對應(yīng)的文本數(shù)據(jù)。為了多方面滿足用戶的喜好，目標(biāo)說話人數(shù)據(jù)提取裝置可由用戶自行選擇以下3 種方式中的任意一種，對目標(biāo)說話人進(jìn)行語音數(shù)據(jù)提取(圖3所示)(1)由目標(biāo)說話人朗讀目標(biāo)說話人數(shù)據(jù)提取裝置從帶音素特征的文本庫中提取的帶音素特征的文本并用錄音模塊對其錄音，以指定的帶音素特征的文本作為文本數(shù)據(jù)，以所錄制的語音作為音頻數(shù)據(jù)；其中，指定的帶音素特征的文本中的漢字覆蓋所有音節(jié)；(2)若用戶覺得朗讀指定文本很乏味，還可以由目標(biāo)說話人朗讀任意自選文本并用錄音模塊對其錄音，再由語音識別模塊將所錄制語音轉(zhuǎn)換為文本，以該文本作為文本數(shù)據(jù)，以所錄制的語音作為音頻數(shù)據(jù)；(3)用戶可以對與目標(biāo)說話人的手機(jī)通話語音利用錄音模塊進(jìn)行錄音，再由語音識別模塊將所錄制語音轉(zhuǎn)換為文本，以該文本作為文本數(shù)據(jù)，以所錄制的語音作為音頻數(shù)據(jù)。這樣可以不受距離限制，但同時音頻質(zhì)量會進(jìn)一步降低。其中，第(1)種方式得到的數(shù)據(jù)質(zhì)量最高，后兩種方式O)、(3)方式須注意錄音時長要滿足目標(biāo)說話人數(shù)據(jù)提取裝置的指定時長，若單次錄音的時長不滿足要求，則需要多次錄音使得音頻總時長滿足指定要求，并且將滿足要求的音頻總和作為目標(biāo)說話人的音頻數(shù)據(jù)。模型自適應(yīng)裝置，用于生成并選取指定目標(biāo)說話人模型。該模型自適應(yīng)裝置包括說話人轉(zhuǎn)換模塊，用于根據(jù)目標(biāo)說話人的語音數(shù)據(jù)生成目標(biāo)說話人模型；
目標(biāo)說話人模型庫，用于存儲目標(biāo)說話人模型。模型自適應(yīng)裝置的說話人轉(zhuǎn)換模塊得到目標(biāo)說話人數(shù)據(jù)后，會利用現(xiàn)有的自適應(yīng)技術(shù)用目標(biāo)說話人數(shù)據(jù)對源說話人模型進(jìn)行模型參數(shù)映射，得到目標(biāo)說話人模型，之后將所得模型存儲到目標(biāo)說話人模型庫。根據(jù)用戶的要求，模型庫中的模型可以選擇與手機(jī)通訊錄中的人名綁定，用于讀取指定說話人發(fā)來的短信。目標(biāo)說話人語音合成裝置，用于根據(jù)用戶指定文本的內(nèi)容生成該文本目標(biāo)說話人的合成語音。該目標(biāo)說話人語音合成裝置包括前端的文本分析模塊，用于對朗讀文本進(jìn)行分析；例如，分析文本中的每個文字怎么讀，如何斷句等；后端的語音合成模塊，用于生成指定目標(biāo)說話人的朗讀固定文本的合成語音。在目標(biāo)說話人語音合成裝置中，用戶可以通過得到目標(biāo)說話人短信和選擇手機(jī)中已有文本的方式指定文本的內(nèi)容，這兩種方式對于目標(biāo)說話人的指定方式分別為自動選擇手機(jī)通訊錄所綁定的目標(biāo)說話人和手動指定目標(biāo)說話人。通過前端的文本分析模塊得到的分析結(jié)果傳給后端的語音合成模塊，由語音合成模塊生成該朗讀文本的合成語音。下面對本發(fā)明的語音合成系統(tǒng)的實現(xiàn)方法做進(jìn)一步詳細(xì)的說明。該實現(xiàn)方法，如圖2所示，其具體步驟包括(A)目標(biāo)說話人數(shù)據(jù)提取裝置采集目標(biāo)說話人的語音數(shù)據(jù)用戶邀請期望的目標(biāo)說話人參與數(shù)據(jù)采集環(huán)節(jié)。目標(biāo)說話人可以從之前所述的三種方式(圖3所示)中選擇自己傾向的方式進(jìn)行數(shù)據(jù)采集。需要注意的是非朗讀系統(tǒng)指定文本的數(shù)據(jù)采集方式，錄音時長須滿足系統(tǒng)要求時長。比如，用戶張三想得到李四的語音數(shù)據(jù)，為模型自適應(yīng)做準(zhǔn)備。此時若李四在場，于是張三邀請李四閱讀目標(biāo)說話人數(shù)據(jù)提取裝置提供的帶音素特征的文本，并用錄音模塊錄音，錄音結(jié)束后系統(tǒng)保存音頻數(shù)據(jù)，并以制定的帶音素特征的文本作為文本數(shù)據(jù)。若李四不喜歡念文本，則張三請他隨便說幾句話，即任意文本，同時張三用錄音模塊對其錄音，當(dāng)錄音時長不滿足目標(biāo)說話人數(shù)據(jù)提取裝置的指定時長，裝置給出相應(yīng)提示，此時張三可以再次或多次對李四進(jìn)行錄音。錄音結(jié)束后語音識別模塊對音頻識別出對應(yīng)的文本作為文本數(shù)據(jù)。若李四不在場，張三就給李四打電話，在通話過程中用錄音模塊對李四的通話內(nèi)容進(jìn)行錄音。當(dāng)錄音時長不滿足目標(biāo)說話人數(shù)據(jù)提取裝置的指定時長，裝置給出相應(yīng)提示，此時張三可以再次或多次和李四打電話并進(jìn)行錄音。錄音結(jié)束后語音識別模塊對音頻識別出對應(yīng)的文本作為文本數(shù)據(jù)。(B)模型自適應(yīng)裝置根據(jù)目標(biāo)說話人的語音數(shù)據(jù)生成目標(biāo)說話人模型，并存儲至目標(biāo)說話人模型庫當(dāng)目標(biāo)說話人數(shù)據(jù)滿足語音合成系統(tǒng)要求后，系統(tǒng)提示用戶是否需要立即進(jìn)行模型自適應(yīng)，用戶選是，則模型自適應(yīng)裝置啟動說話人轉(zhuǎn)換模塊開始進(jìn)行模型自適應(yīng)，用戶選否，則可以選擇以后再進(jìn)行模型自適應(yīng)，或者采集更多說話人數(shù)據(jù)后再進(jìn)行模型自適應(yīng)。得到的目標(biāo)說話人模型會被儲存在目標(biāo)說話人模型庫，在得到一個模型后，用戶還可以用新的數(shù)據(jù)訓(xùn)練新模型并對庫中的模型進(jìn)行覆蓋。當(dāng)一個目標(biāo)說話人模型被保存后系統(tǒng)提示用戶是否要把目標(biāo)說話人模型綁定至手機(jī)通訊錄，用戶選是，則系統(tǒng)會打開手機(jī)通訊錄提供給用戶進(jìn)行人名選擇，用戶選擇相應(yīng)人名后完成綁定。比如假設(shè)張三已經(jīng)得到李四的語音數(shù)據(jù)，于是他在系統(tǒng)中選擇李四的數(shù)據(jù)并利用說話人轉(zhuǎn)換模塊自適應(yīng)得到李四的語音模型，并保存在目標(biāo)說話人模型庫中。此時系統(tǒng)提示是否要和手機(jī)通訊錄中的人名進(jìn)行綁定，張三選擇是，并在通訊錄選擇李四完成綁定。一段時間以后張三又得到了一段李四的新的語音數(shù)據(jù)，于是張三用新的數(shù)據(jù)重新自適應(yīng)得到了李四的語音模型，并覆蓋了原本目標(biāo)說話人中的李四的語音模型，并重新對手機(jī)通訊錄中的人名“李四”進(jìn)行綁定。(C)當(dāng)用戶激活該語音合成系統(tǒng)后，目標(biāo)說話人語音合成裝置實現(xiàn)語音合成功能當(dāng)用戶激活該語音合成系統(tǒng)且已經(jīng)對某個人名進(jìn)行模型綁定后，此后再受到此人的短信時，系統(tǒng)會提示是否要閱讀短信，若選擇是，則目標(biāo)說話人語音合成裝置會合成該短信的朗讀語音并加以播放。比如張三已將李四的語音模型對通訊錄中的“李四”進(jìn)行了綁定，此時張三收到李四的短信，系統(tǒng)會提示是否要閱讀短信，張三選擇是，于是目標(biāo)說話人語音合成裝置合成李四朗讀短信的語音并播放。此外，無論某個目標(biāo)說話人模型有沒有被綁定到手機(jī)通訊錄，該模型都可被用于閱讀其他手機(jī)文本。方法為用戶打開系統(tǒng)，并在系統(tǒng)選擇打開某指定路徑的文本文檔，之后再手動選擇目標(biāo)說話人模型庫中的模型，確定后目標(biāo)說話人語音合成裝置合成當(dāng)前頁文檔的目標(biāo)說話人朗讀語音并加以播放。比如，張三想用王五的聲音朗讀某文本文檔。王五的語音模型并未和手機(jī)通訊錄進(jìn)行綁定，但是張三仍然可以在系統(tǒng)中手動選擇王五的語音模型，確定后用目標(biāo)說話人語音合成裝置合成王五閱讀該文本的語音。上述的手機(jī)嵌入式版本的語音合成系統(tǒng)可以根據(jù)用戶喜好選擇指定目標(biāo)人閱讀短信和手機(jī)文本，擴(kuò)展了手機(jī)的功能，并使用戶利用手機(jī)獲取信息的過程更充滿趣味性和互動性。另外，雖然只介紹了應(yīng)用于手機(jī)平臺的例子，但按照如上所述，本發(fā)明完全可應(yīng)用于其他平臺，如電子郵件平臺、語音播報平臺。本發(fā)明的說話人可選的語音合成系統(tǒng)及其實現(xiàn)方法，通過目標(biāo)說話人的語音數(shù)據(jù)自適應(yīng)生成目標(biāo)說話人的語音模型，模型庫是動態(tài)的且與用戶期望的說話人匹配度更高，而且本發(fā)明采用了具體的語音數(shù)據(jù)采集方法，可適應(yīng)于不同場景，同時著力于使語音數(shù)據(jù)包含更完備的音素特征，使得得到參數(shù)匹配更高的目標(biāo)說話人模型成為可能。因此，本發(fā)明可以使用戶獲取信息的過程更充滿趣味性和互動性。
權(quán)利要求
1.一種說話人可選的語音合成系統(tǒng)，其特征在于該語音合成系統(tǒng)包括目標(biāo)說話人數(shù)據(jù)提取裝置，用于提取目標(biāo)說話人的語音數(shù)據(jù)；模型自適應(yīng)裝置，用于生成和選取指定目標(biāo)說話人模型；目標(biāo)說話人語音合成裝置，用于生成目標(biāo)說話人朗讀文本的合成語音。
2.如權(quán)利要求1所述的說話人可選的語音合成系統(tǒng)，其特征在于所述目標(biāo)說話人數(shù)據(jù)提取裝置，包括錄音模塊，用于錄制目標(biāo)說話人語音；帶音素特征的文本庫，用于提供給目標(biāo)說話人朗讀；語音識別模塊，用于將所錄制的目標(biāo)說話人語音轉(zhuǎn)化為對應(yīng)的文本數(shù)據(jù)；模型自適應(yīng)裝置，包括說話人轉(zhuǎn)換模塊，用于根據(jù)目標(biāo)說話人的語音數(shù)據(jù)生成目標(biāo)說話人模型；目標(biāo)說話人模型庫，用于存儲目標(biāo)說話人模型；目標(biāo)說話人語音合成裝置，包括文本分析模塊，用于對朗讀文本進(jìn)行分析；語音合成模塊，用于生成指定目標(biāo)說話人的朗讀固定文本的合成語音。
3.如權(quán)利要求1所述的說話人可選的語音合成系統(tǒng)，其特征在于所述語音合成系統(tǒng)是一種應(yīng)用于包括手機(jī)平臺、電子郵件平臺、語音播報平臺的語音合成系統(tǒng)。
4.如權(quán)利要求1所述的說話人可選的語音合成系統(tǒng)，其特征在于所述目標(biāo)說話人數(shù)據(jù)提取裝置中，目標(biāo)說話人的語音數(shù)據(jù)包括音頻數(shù)據(jù)和對應(yīng)的文本數(shù)據(jù)。
5.如權(quán)利要求2所述的說話人可選的語音合成系統(tǒng)，其特征在于所述錄音模塊中，錄制目標(biāo)說話人語音的音源包括環(huán)境音、電話通話語音。
6.如權(quán)利要求1-5任一項所述的說話人可選的語音合成系統(tǒng)的實現(xiàn)方法，包括步驟(A)目標(biāo)說話人數(shù)據(jù)提取裝置采集目標(biāo)說話人的語音數(shù)據(jù)；(B)模型自適應(yīng)裝置根據(jù)目標(biāo)說話人的語音數(shù)據(jù)生成目標(biāo)說話人模型，并存儲至目標(biāo)說話人模型庫；(C)當(dāng)用戶激活該語音合成系統(tǒng)后，目標(biāo)說話人語音合成裝置實現(xiàn)語音合成功能。
7.如權(quán)利要求6所述的說話人可選的語音合成系統(tǒng)的實現(xiàn)方法，其特征在于所述步驟(A)中，目標(biāo)說話人數(shù)據(jù)提取裝置是以下列任意一種方式對目標(biāo)說話人進(jìn)行語音數(shù)據(jù)提取(1)由目標(biāo)說話人朗讀目標(biāo)說話人數(shù)據(jù)提取裝置指定的帶音素特征的文本并用錄音模塊錄音，以指定的帶音素特征的文本作為文本數(shù)據(jù)，以所錄制的語音作為音頻數(shù)據(jù)；(2)由目標(biāo)說話人朗讀任意自選文本并用錄音模塊錄音，再由語音識別模塊將所錄制語音轉(zhuǎn)換為文本，以該文本作為文本數(shù)據(jù)，以所錄制的語音作為音頻數(shù)據(jù)；(3)利用錄音模塊錄制目標(biāo)說話人的通話語音，再由語音識別模塊將所錄制的語音轉(zhuǎn)換為文本，以該文本作為文本數(shù)據(jù)，以所錄制的語音作為音頻數(shù)據(jù)。
8.如權(quán)利要求6所述的說話人可選的語音合成系統(tǒng)的實現(xiàn)方法，其特征在于所述(C) 中，目標(biāo)說話人語音合成裝置按照下列步驟實現(xiàn)語音合成功能(1)用戶指定文本和人名；(2)文本分析模塊分析文本；(3)語音合成模塊根據(jù)人名從目標(biāo)說話人模型庫中抽取對應(yīng)模型，并根據(jù)文本分析模塊的分析結(jié)果，生成目標(biāo)人朗讀文本的合成語音；(4)播放所合成的語音。
9.如權(quán)利要求8所述的說話人可選的語音合成系統(tǒng)的實現(xiàn)方法，其特征在于所述(1) 中，對于應(yīng)用于手機(jī)平臺的語音合成系統(tǒng)中，用戶通過如下方式指定文本和人名①將語音合成系統(tǒng)中的目標(biāo)說話人模型與手機(jī)通訊錄的人名綁定，把以固定人名為發(fā)送者的短信作為指定文本，相關(guān)人名為指定人名；②以存儲在手機(jī)中的文本作為指定文本，用戶手動指定人名。
10.如權(quán)利要求7所述的說話人可選的語音合成系統(tǒng)的實現(xiàn)方法，其特征在于所述(1)中的指定的帶音素特征的文本中的漢字覆蓋所有音節(jié)。
11.如權(quán)利要求7所述的說話人可選的語音合成系統(tǒng)的實現(xiàn)方法，其特征在于所述(2)和(3)中的錄音時間須滿足目標(biāo)說話人數(shù)據(jù)提取裝置的指定時間，若單次錄音的時長不滿足要求，則需要多次錄音使得音頻總時長滿足目標(biāo)說話人數(shù)據(jù)提取裝置的指定要求，并且將滿足要求的音頻總和作為目標(biāo)說話人的音頻數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種說話人可選的語音合成系統(tǒng)及其實現(xiàn)方法，該語音合成系統(tǒng)包括目標(biāo)說話人數(shù)據(jù)提取裝置、模型自適應(yīng)裝置以及目標(biāo)說話人語音合成裝置。該實現(xiàn)方法包括(A)目標(biāo)說話人數(shù)據(jù)提取裝置采集目標(biāo)說話人的語音數(shù)據(jù)；(B)模型自適應(yīng)裝置根據(jù)目標(biāo)說話人的語音數(shù)據(jù)生成目標(biāo)說話人模型，并存儲至目標(biāo)說話人模型庫；(C)當(dāng)用戶激活該語音合成系統(tǒng)后，目標(biāo)說話人語音合成裝置實現(xiàn)語音合成功能。本發(fā)明的手機(jī)嵌入式版本可以根據(jù)用戶喜好選擇指定目標(biāo)人閱讀短信和手機(jī)文本，擴(kuò)展了手機(jī)的功能，并使用戶利用手機(jī)獲取信息的過程更充滿趣味性和互動性。另外，本發(fā)明的語音合成系統(tǒng)還可應(yīng)用于除手機(jī)外的平臺。
文檔編號G10L13/02GK102568472SQ201010589120
公開日2012年7月11日申請日期2010年12月15日優(yōu)先權(quán)日2010年12月15日
發(fā)明者吳悅申請人:盛樂信息技術(shù)(上海)有限公司

完整全部詳細(xì)技術(shù)資料下載