語音轉換合成裝置及其方法

文檔序號：2821817閱讀：283來源：國知局

專利名稱：語音轉換合成裝置及其方法
技術領域：
本發(fā)明有關于一種語音轉換合成裝置及其方法，特別有關于一種將非特定人語音轉換成特定人語音的語音轉換合成裝置與其方法。
背景技術：
語音轉換技術在文本轉換(Text To Speech，簡稱TTS)系統(tǒng)設計、語音掩飾與玩具設計等方面有著廣泛的應用前景。而語音轉換技術在實質上是著重于研究如何根據源話者與目標話者的語音數(shù)據，建立兩者之間的轉換關系。
已知的語音轉換裝置的轉換方法包括有矢量量化與碼書映射方法、線性變換方法、神經網羅方法、混合高斯模型方法等，上述這些方法都能夠用于建立話者之間的特征參數(shù)，如頻域特征參數(shù)的轉換關系。但這些方法均只能用于建立一對一的轉換關系，即特定人語音與特定目標話者語音之間的轉換關系，因此采用這些方法建立的語音轉換系統(tǒng)只能面對特定的用戶，對于新用戶，語音轉換系統(tǒng)必須重新建立。故已知的語音轉換方法并不適用于語音掩飾或玩具等需要將非特定人語音轉換成特定人語音的場合。

發(fā)明內容
因此，本發(fā)明就是在提供一種語音轉換合成裝置，是利用非特定人語音識別技術，對非特定人語音進行識別，再根據識別結果與特定人語音數(shù)據庫中相應的語音數(shù)據進行合成，而得到一特定人語音。
本發(fā)明在提出一種語音轉換合成方法，是對所獲得的非特定人語音進行識別，再利用相應的語音數(shù)據進行合成，而得到一特定人語音。
為達上述與其他的目的，本發(fā)明提出一種語音轉換合成裝置，此裝置包括語音分析模組、語音識別模組與語音合成模組。
上述的語音分析模組接收語音轉換合成裝置所獲得的非特定人語音，將非特定人語音分幀處理后分為清音段與濁音段，其中，清音段直接被輸出至輸出端，而濁音段則在被分析后輸出頻譜特征與韻律信息。
上述的語音識別模組耦接至語音分析模組，接收語音分析模組傳來的頻譜特征，負責識別出與頻譜特征相對應的相應語音段所包含的語音單元序列，且在確定各語音單元的時間長度(簡稱時長)后輸出。其中，語音識別模組包括非特定人語音數(shù)據庫與語音識別單元。此非特定語音數(shù)據庫儲存用于非特定人語音識別的所有語音單元模型參數(shù)，而語音識別單元耦接至非特定人語音數(shù)據庫，在接收到頻譜特征時，至非特定人語音數(shù)據庫識別出與頻譜特征相對應的相應語音段所包含的語音單元序列。
上述的語音合成模組耦接至語音識別模組與語音分析模組，負責接收時長、語音單元序列以及韻律信息，并與語音單元序列的相應語音單元數(shù)據進行合成，產生一特定人語音，最后由輸出端輸出特定人語音。其中，語音合成模組包括特定人語音數(shù)據庫與語音合成單元，且特定人語音數(shù)據庫儲存有語音單元模型參數(shù)的相應特定人語音單元數(shù)據，而語音合成單元耦接至特定人語音數(shù)據庫，在接收到語音單元序列時，至特定人語音數(shù)據庫中識別出語音單元模型參數(shù)的相應特定人語音單元數(shù)據。
依照本發(fā)明的較佳實施例所述，上述非特定人語音數(shù)據庫采用隱馬爾可夫模型(Hidden Markov Model，簡稱HMM)建立，且各語音單元相應的隱馬爾可夫模型可由非特定人大量的連續(xù)語音訓練得到。
依照本發(fā)明的較佳實施例所述，上述特定人語音數(shù)據庫可為一個或一個以上，且這些特定人語音數(shù)據庫均有其相對應的特定人。
依照本發(fā)明的較佳實施例所述，上述韻律信息包括基音周期與短時能量。
依照本發(fā)明的較佳實施例所述，上述將非特定人語音分幀處理為將一連串的非特定人語音以一預設時間予以切割。
依照本發(fā)明的較佳實施例所述，上述語音識別模組僅進行語音層的識別，而不進行語義單元(如單詞)的識別。
為達上述與其他的目的，本發(fā)明提出一種語音轉換合成方法，適用于將所獲得的非特定人語音轉換合成一特定人語音。其方法為語音分析模組取得非特定人語音，接著將非特定人語音分幀處理，并劃分為清音段與濁音段，其次語音分析模組將濁音段分析后得到頻譜特征與韻律信息。語音識別模組則根據頻譜特征，識別出與頻譜特征相對應的相應語音段所包含的語音單元序列，并確定語音單元序列的時長。最后，語音合成模組根據語音單元序列、時長、韻律信息將語音單元序列的相應語音單元數(shù)據及清音段合成特定人語音后由輸出端輸出。
為讓本發(fā)明的上述和其他目的、特征、和優(yōu)點能更明顯易懂，下文特舉一較佳實施例，并配合附圖，作詳細說明如下

圖1是本發(fā)明的較佳實施例的一種語音轉換合成裝置的功能方塊圖；圖2是本發(fā)明的較佳實施例的一種以數(shù)字訊號處理器實現(xiàn)的電路方塊圖；以及圖3是本發(fā)明的較佳實施例的一種語音轉換合成方法的方法流程圖。
具體實施例方式
請參照圖1，其繪示了依照本發(fā)明的較佳實施例的一種語音轉換合成裝置的功能方塊圖。此語音轉換合成裝置100可做為文本轉換系統(tǒng)設計、語音掩飾或玩具設計等方面，其包括語音分析模組110、語音識別模組120與語音合成模組130。
語音分析模組110接收語音轉換合成裝置100所獲得的非特定人語音，將非特定人語音分幀處理后分為清音段與濁音段，其中，清音段直接輸出至輸出端，而濁音段則在被分析為頻譜特征與韻律信息后輸出，且韻律信息包括基音(pitch ofspeech)周期與短時能量。
另外，將非特定人語音分幀處理為將一連串的非特定人語音以一預設時間予以切割，例如是將非特定人語音每隔20毫秒即予以切割定義為一幀，且預設時間可為語音轉換合成裝置100出廠時已預設好。
語音識別模組120耦接至語音分析模組110，接收語音分析模組110傳來的頻譜特征，負責識別出與頻譜特征相對應的相應語音段所包含的語音單元序列，且于確定語音單元序列的時長后輸出。
其中，語音識別模組120包括非特定人語音數(shù)據庫124與語音識別單元122。在非特定人語音數(shù)據庫124中儲存用于非特定人語音識別的所有語音單元序列，而語音識別單元122耦接至非特定人語音數(shù)據庫124，在接收到頻譜特征時，至非特定人語音數(shù)據庫124中識別出與頻譜特征相對應的相應語音段所包含的語音單元序列。
語音合成模組130耦接至語音識別模組120與語音分析模組110，接收語音識別模組120傳來的時長、語音單元序列以及語音分析模組110傳來的韻律信息，并利用語音單元序列相對應的相應語音單元數(shù)據進行合成，產生一特定人語音，最后由輸出端輸出特定人語音。
其中，語音合成模組130包括多個特定人語音數(shù)據庫D1～DN儲存有語音單元模型參數(shù)相對應的相應特定人語音單元數(shù)據，而語音合成單元132耦接至這些特定人語音數(shù)據庫D1～DN，在接收到語音單元序列時，至特定人語音數(shù)據庫D1～DN中識別出與語音單元序列相對應的相應語音單元數(shù)據。
在本發(fā)明的較佳實施例中，特定人語音數(shù)據庫D1～DN可為一個或一個以上，且這些特定人語音數(shù)據庫均有其相對應的特定人。
在本發(fā)明的較佳實施例中，非特定人語音數(shù)據庫采用隱馬爾可夫模型(HiddenMarkov Model，簡稱HMM)建立，且各語音單元相應的隱馬爾可夫模型可由非特定人大量的連續(xù)語音訓練得到。
在本發(fā)明的較佳實施例中，語音識別模組120僅進行語音層的識別，而不進行語義單元(如單詞)的識別。
此語音轉換合成裝置100的動作方式為語音分析模組110接收語音轉換合成裝置100所獲得的非特定人語音，將非特定人語音分幀處理后分為清音段與濁音段，接著將清音段直接輸出至輸出端，而濁音段則在被分析后得到頻譜特征與韻律信息后輸出。其次，語音識別模組120接收語音分析模組110傳來的頻譜特征，在識別出與頻譜特征相對應的相應語音段所包含的語音單元序列及確定語音單元序列的時長后輸出。最后，語音合成模組130接收語音識別模組120傳來的時長、語音單元序列以及語音分析模組110傳來的韻律信息，并利用語音單元序列相對應的相應語音單元數(shù)據進行合成，在產生特定人語音后由輸出端輸出特定人語音。
請接著參考圖2，其繪示了本發(fā)明的較佳實施例的一種以數(shù)字訊號處理器實現(xiàn)的電路方塊圖。在圖2中語音轉換裝置100包括模擬/數(shù)字轉換器200、數(shù)字訊號處理器210、數(shù)字/模擬轉換器220、非特定人語音數(shù)據庫230以及多個特定人語音數(shù)據庫D1～DN。
模擬/數(shù)字轉換器200為語音輸入端口，負責將所接收到的非特定人語音模擬訊號轉換為非特定人語音數(shù)字訊號后輸出。數(shù)字訊號處理器210負責執(zhí)行語音轉換中的計算，其包括非特定人語音的分析與識別以及特定人語音合成。數(shù)字/模擬轉換器220為語音輸出端口負責將特定人語音的模擬訊號轉換成特定人語音數(shù)字訊號后輸出。非特定人語音數(shù)據庫230為儲存有語音轉換程式與隱馬爾可夫模型(HMM)參數(shù)，其中非特定人語音數(shù)據庫230為只讀存儲器。多個特定人語音數(shù)據庫D1～DN為儲存多個特定人的語音數(shù)據庫，其中語音數(shù)據庫D1～DN為存儲器。
在本發(fā)明的較佳實施例中，數(shù)字訊號處理器210包括輸入緩沖器212、數(shù)字訊號處理中心214與輸出緩沖器216。其中，輸入緩沖器212為儲存輸入語音段的頻譜參數(shù)與韻律參數(shù)；數(shù)字訊號處理中心214負責執(zhí)行語音轉換的計算；輸出緩沖器216為儲存輸出語音。
請繼續(xù)參考圖3，其繪示了本發(fā)明的較佳實施例的一種語音轉換合成方法的流程圖。在語音轉換合成方法中，為便于了解，請合并參考圖1與圖3。此方法為語音分析模組110取得非特定人語音(s302)，接著將非特定人語音分幀處理，并劃分為清音段與濁音段(s304)，其次語音分析模組110將濁音段分析后得到頻譜特征與韻律信息(s306)。語音識別模組120則根據頻譜特征，至非特定人語音數(shù)據庫124中識別出與頻譜特征相對應的相應語音段所包含的語音單元序列，并確定語音單元序列的時長。最后，語音合成模組130接收語音單元序列、時長、韻律信息，同時至特定人語音數(shù)據庫D1～DN中識別出與語音單元序列相對應的相應語音單元數(shù)據，然后根據語音單元序列、時長與韻律信息將清音段與相應語音單元數(shù)據合成特定人語音后由輸出端輸出。
綜合以上所述，本發(fā)明的語音轉換合成裝置及其方法具有下列優(yōu)點(1)本發(fā)明的語音轉換合成裝置及其方法，可將所得到的任一語音轉換成一特定人語音，在使用時無需調整，具有很強的適應力。
(2)本發(fā)明的語音轉換合成裝置及其方法，在不改變語音轉換合成裝置結構與參數(shù)下，僅增加新的特定人語音數(shù)據庫，即可使語音轉換合成裝置具備對新特定人語音的轉換能力。
雖然本發(fā)明已以一較佳實施例揭示如上，然其并非用以限定本發(fā)明，任何熟悉本技術領域者，在不脫離本發(fā)明的精神和范圍內，當可作些許的更動與潤飾，因此本發(fā)明的保護范圍當視后附的權利要求書所界定為準。
權利要求
1.一種語音轉換合成裝置，適用于將所獲得的一非特定人語音予以轉換合成，該語音轉換合成裝置包括一語音分析模組，接收該非特定人語音，將該非特定人語音分幀處理后分為一清音段與一濁音段，其中該清音段為輸出至一輸出端，而該濁音段被分析為一頻譜特征與一韻律信息后輸出；一語音識別模組，耦接至該語音分析模組，接收該語音分析模組傳來的該頻譜特征，用以識別出該頻譜特征的一相應語音段所包含的一語音單元序列，且于確定該語音單元序列的一時長后輸出；以及一語音合成模組，耦接至該語音識別器與該語音分析模組，接收該韻律信息、該時長與以及該語音單元序列，且根據該語音單元序列、該時長、該韻律信息并利用該語音單元序列相對應的一相應特定人語音單元數(shù)據合成一特定人語音后，由該輸出端輸出該特定人語音。
2.如權利要求1所述的語音轉換合成裝置，其特征在于，該語音識別模組包括一非特定人語音數(shù)據庫，用以儲存用于該非特定人語音識別的該語音單元序列；以及一語音識別單元，耦接至該非特定人語音數(shù)據庫，用以于接收到該頻譜特征時，至該非特定人語音數(shù)據庫識別出該頻譜特征的該相應語音段所包含的該語音單元序列。
3.如權利要求2所述的語音轉換合成裝置，其特征在于，該非特定人語音數(shù)據庫采用一隱馬爾可夫模型所建立，且該隱馬爾可夫模型由特定人大量的連續(xù)語音訓練得到。
4.如權利要求1所述的語音轉換合成裝置，其特征在于，該語音合成模組包括一特定人語音數(shù)據庫，用以儲存與該語音單元序列相對應的該相應特定人語音單元數(shù)據；以及一語音合成單元，耦接至該特定人語音數(shù)據庫，用以于接收到該語音單元序列時，至該特定人語音數(shù)據庫中識別出與該語音單元序列相對應的該相應特定人語音單元數(shù)據。
5.如權利要求4所述的語音轉換合成裝置，其特征在于，該特定人語音數(shù)據庫儲存至少一特定人的語音資料。
6.如權利要求1所述的語音轉換合成裝置，其特征在于，該韻律信息包括基音周期與短時能量。
7.如權利要求1所述的語音轉換合成裝置，其特征在于，將該非特定人語音分幀處理為將一連串的該非特定人語音以一預設時間予以切割。
8.如權利要求1所述的語音轉換合成裝置，其特征在于，該語音識別模組僅進行語音層的識別，而未進行語義單元的識別。
9.一種語音轉換合成方法，包括下列步驟獲得一非特定人語音；將該非特定人語音分幀處理，并劃分為一清音段與一濁音段；將該濁音段分析后得到一頻譜特征與一韻律信息；根據該頻譜特征識別出一相應語音段所包含的一語音單元序列，并確定該語音單元序列一時長；以及根據該語音單元序列、該時長、該韻律信息，將該語音單元序列相對應的一相應語音單元數(shù)據及該清音段合成一特定人語音后輸出。
10.如權利要求9所述的語音轉換合成方法，其特征在于，該韻律信息包括基音周期與短時能量。
11.如權利要求9所述的語音轉換合成方法，其特征在于，將該非特定人語音分幀處理為將一連串的該非特定人語音以一預設時間予以切割。
全文摘要
本發(fā)明提供一種語音轉換合成裝置及其方法，此裝置包括語音分析模組、語音識別模組與語音合成模組。語音分析模組接收并分析非特定人語音，再經過語音識別模組的識別后輸出語音單元序列，最后語音合成模組根據語音單元序列將相應特定人語音單元數(shù)據合成后輸出一特定人語音。語音轉換合成方法則根據分析識別的結果，將非特定人語音轉換成使用者指定的特定人語音。
文檔編號G10L15/00GK1534595SQ03116050
公開日2004年10月6日申請日期2003年3月28日優(yōu)先權日2003年3月28日
發(fā)明者張江安, 張欽申請人:中穎電子(上海)有限公司

完整全部詳細技術資料下載