一種實現(xiàn)聲音轉換的方法及系統(tǒng)的制作方法_4

文檔序號：9305367閱讀：來源：國知局

>[0189] 第三訓練單元，用于根據(jù)所述對應關系訓練轉換模型參數(shù)；
[0190] 合并單元，用于將所述源發(fā)音人模型參數(shù)、轉換模型參數(shù)、以及目標發(fā)音人模型參數(shù)進行合并，得到所述源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型參數(shù)。
[0191] 基于上述構建的頻譜包絡變換模型，上述頻譜包絡特征轉換模塊703對從源發(fā)音人的語音信號中提取的頻譜包絡特征進行轉換，得到轉換后的頻譜包絡特征。上述頻譜包絡特征轉換模塊703的一種具體結構包括：條件概率分布計算單元和轉換特征確定單元。其中：所述條件概率分布計算單元于根據(jù)所述頻譜包絡變換模型計算所述頻譜包絡特征的條件概率分布；所述轉換特征確定單元用于根據(jù)所述條件概率分布確定轉換后的頻譜包絡特征。具體的計算過程可參照前面本發(fā)明方法實施例中的描述，在此不再贅述。
[0192] 本發(fā)明實施例實現(xiàn)聲音轉換的系統(tǒng)，基于頻譜包絡變換模型將源發(fā)音人語音信號的頻譜包絡特征變換為目標發(fā)音人的頻譜包絡特征，然后，基于變換后的頻譜包絡特征及基頻特征生成目標發(fā)音人的語音信號。由于頻譜包絡特征是從高維頻譜包絡中提取出來的，是語音信號最直接、準確的表示，因此可以大大提高頻譜包絡變換的有效性和準確性，進而提高聲音轉換的效果。
[0193] 本說明書中的各個實施例均采用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對于系統(tǒng)實施例而言，由于其基本相似于方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網絡單元上。可以根據(jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領域普通技術人員在不付出創(chuàng)造性勞動的情況下，即可以理解并實施。
[0194] 以上對本發(fā)明實施例進行了詳細介紹，本文中應用了【具體實施方式】對本發(fā)明進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及設備；同時，對于本領域的一般技術人員，依據(jù)本發(fā)明的思想，在【具體實施方式】及應用范圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發(fā)明的限制。
【主權項】
1. 一種實現(xiàn)聲音轉換的方法，其特征在于，包括：獲取源發(fā)音人的語音信號；提取所述語音信號的頻譜包絡特征和基頻特征；根據(jù)預先構建的頻譜包絡變換模型對所述頻譜包絡特征進行轉換，得到轉換后的頻譜包絡特征；根據(jù)轉換后的頻譜包絡特征和轉換后的基頻特征生成目標發(fā)音人的語音信號。2. 根據(jù)權利要求1所述的方法，其特征在于，所述提取所述語音信號的頻譜包絡特征包括：對于每一幀語音幀，提取其上下多幀的頻譜包絡特征作為所述語音幀的頻譜包絡特征。3. 根據(jù)權利要求1所述的方法，其特征在于，按以下方式構建頻譜包絡變換模型：獲取訓練語音數(shù)據(jù)，所述訓練語音數(shù)據(jù)包括源發(fā)音人語音數(shù)據(jù)及目標發(fā)音人語音數(shù) 據(jù)；提取所述訓練語音數(shù)據(jù)的頻譜包絡特征；確定源發(fā)音人的頻譜包絡特征與目標發(fā)音人的頻譜包絡特征的對應關系；確定源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型拓撲結構；根據(jù)所述對應關系訓練所述源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型參數(shù)。4. 根據(jù)權利要求3所述的方法，其特征在于，所述確定源發(fā)音人的頻譜包絡特征與目標發(fā)音人的頻譜包絡特征的對應關系包括：以語音幀為單位，提取所述訓練語音信號的美爾倒譜特征序列；將源發(fā)音人的美爾倒譜特征序列與目標發(fā)音人的美爾倒譜特征序列對齊；根據(jù)所述源發(fā)音人的美爾倒譜特征序列與目標發(fā)音人的美爾倒譜特征序列的對應關系，確定源發(fā)音人的頻譜包絡特征與目標發(fā)音人的頻譜包絡特征的對應關系。5. 根據(jù)權利要求3所述的方法，其特征在于，所述確定源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型拓撲結構包括：利用第一 RBM模型模擬源發(fā)音人頻譜包絡分布特點，并將其作為源發(fā)音人模型；利用第二RBM模型模擬目標發(fā)音人頻譜包絡分布特點，并將其作為目標發(fā)音人模型；利用BBAM模型模擬源發(fā)音人和目標發(fā)音人之間的參數(shù)傳遞關系，并將其作為轉換模型；拼接所述源發(fā)音人模型、轉換模型、以及目標發(fā)音人模型，得到源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型拓撲結構。6. 根據(jù)權利要求5所述的方法，其特征在于，所述根據(jù)所述對應關系訓練所述源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型參數(shù)包括：獲取訓練數(shù)據(jù)，所述訓練數(shù)據(jù)包括源發(fā)音人頻譜包絡數(shù)據(jù)和目標發(fā)音人頻譜包絡數(shù) 據(jù)；根據(jù)所述源發(fā)音人頻譜包絡數(shù)據(jù)訓練源發(fā)音人模型參數(shù)，并根據(jù)所述目標發(fā)音人頻譜包絡數(shù)據(jù)訓練目標發(fā)音人模型參數(shù)；根據(jù)所述對應關系訓練轉換模型參數(shù)；將所述源發(fā)音人模型參數(shù)、轉換模型參數(shù)、以及目標發(fā)音人模型參數(shù)進行合并，得到所述源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型參數(shù)。7. 根據(jù)權利要求6所述的方法，其特征在于，所述根據(jù)所述對應關系訓練轉換模型參數(shù)包括：從所述訓練數(shù)據(jù)中采樣得到轉換模型參數(shù)訓練數(shù)據(jù)；基于所述轉換模型參數(shù)訓練數(shù)據(jù)訓練轉換模型參數(shù)。8. 根據(jù)權利要求1至7任一項所述的方法，其特征在于，所述根據(jù)預先構建的頻譜包絡變換模型對所述頻譜包絡特征進行轉換，得到轉換后的頻譜包絡特征包括：根據(jù)所述頻譜包絡變換模型計算所述頻譜包絡特征的條件概率分布；根據(jù)所述條件概率分布確定轉換后的頻譜包絡特征。9. 一種實現(xiàn)聲音轉換的系統(tǒng)，其特征在于，包括：語音信號獲取模塊，用于獲取源發(fā)音人的語音信號；特征提取模塊，用于提取所述語音信號的頻譜包絡特征和基頻特征；頻譜包絡特征轉換模塊，用于根據(jù)預先構建的頻譜包絡變換模型對所述頻譜包絡特征進行轉換，得到轉換后的頻譜包絡特征；語音生成模塊，用于根據(jù)轉換后的頻譜包絡特征和轉換后的基頻特征生成目標發(fā)音人的語音信號。10. 根據(jù)權利要求9所述的系統(tǒng)，其特征在于，所述系統(tǒng)還包括：頻譜包絡變換模型構建模塊，所述頻譜包絡變換模型構建模塊包括：訓練語音數(shù)據(jù)獲取單元，用于獲取訓練語音數(shù)據(jù)，所述訓練語音數(shù)據(jù)包括源發(fā)音人語音數(shù)據(jù)及目標發(fā)音人語音數(shù)據(jù)；特征提取單元，用于提取所述訓練語音數(shù)據(jù)的頻譜包絡特征；對應關系確定單元，用于確定源發(fā)音人的頻譜包絡特征與目標發(fā)音人的頻譜包絡特征的對應關系；拓撲結構確定單元，用于確定源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型拓撲結構；參數(shù)訓練單元，用于根據(jù)所述對應關系訓練所述源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型參數(shù)。11. 根據(jù)權利要求10所述的系統(tǒng)，其特征在于，所述對應關系確定單元包括：第一提取單元，用于以語音幀為單位，提取所述訓練語音信號的美爾倒譜特征序列；對齊單元，用于將源發(fā)音人的美爾倒譜特征序列與目標發(fā)音人的美爾倒譜特征序列對齊；第一確定單元，用于根據(jù)所述源發(fā)音人的美爾倒譜特征序列與目標發(fā)音人的美爾倒譜特征序列的對應關系，確定源發(fā)音人的頻譜包絡特征與目標發(fā)音人的頻譜包絡特征的對應關系。12. 根據(jù)權利要求10所述的系統(tǒng)，其特征在于，所述拓撲結構確定單元包括：源發(fā)音人模型單元，用于利用第一 RBM模型模擬源發(fā)音人頻譜包絡分布特點，并將其作為源發(fā)音人模型；目標發(fā)音人模型單元，用于利用第二RBM模型模擬目標發(fā)音人頻譜包絡分布特點，并將其作為目標發(fā)音人模型；轉換模型單元，用于利用BBAM模型模擬源發(fā)音人和目標發(fā)音人之間的參數(shù)傳遞關系，并將其作為轉換模型；拼接單元，用于拼接所述源發(fā)音人模型、轉換模型、以及目標發(fā)音人模型，得到源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型拓撲結構。13. 根據(jù)權利要求12所述的系統(tǒng)，其特征在于，所述參數(shù)訓練單元包括：獲取頻譜包絡訓練數(shù)據(jù)單元，用于獲取訓練數(shù)據(jù)，所述訓練數(shù)據(jù)包括源發(fā)音人頻譜包絡數(shù)據(jù)和目標發(fā)音人頻譜包絡數(shù)據(jù)；第一訓練單元，用于根據(jù)所述源發(fā)音人頻譜包絡數(shù)據(jù)訓練源發(fā)音人模型參數(shù)；第二訓練單元，用于根據(jù)所述目標發(fā)音人頻譜包絡數(shù)據(jù)訓練目標發(fā)音人模型參數(shù)；第三訓練單元，用于根據(jù)所述對應關系訓練轉換模型參數(shù)；合并單元，用于將所述源發(fā)音人模型參數(shù)、轉換模型參數(shù)、以及目標發(fā)音人模型參數(shù)進行合并，得到所述源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型參數(shù)。14. 根據(jù)權利要求9至13任一項所述的系統(tǒng)，其特征在于，所述頻譜包絡特征轉換模塊包括：條件概率分布計算單元，用于根據(jù)所述頻譜包絡變換模型計算所述頻譜包絡特征的條件概率分布；轉換特征確定單元，用于根據(jù)所述條件概率分布確定轉換后的頻譜包絡特征。
【專利摘要】本發(fā)明涉及語音合成技術領域，公開了一種實現(xiàn)聲音轉換的方法及系統(tǒng)，該方法包括：獲取源發(fā)音人的語音信號；提取所述語音信號的頻譜包絡特征和基頻特征；根據(jù)預先構建的頻譜包絡變換模型對所述頻譜包絡特征進行轉換，得到轉換后的頻譜包絡特征；根據(jù)轉換后的頻譜包絡特征和基頻特征生成目標發(fā)音人的語音信號。利用本發(fā)明，可以有效提高轉換語音的音質。
【IPC分類】G10L15/02, G10L13/02
【公開號】CN105023570
【申請?zhí)枴緾N201410182517
【發(fā)明人】陳凌輝, 江源, 凌震華, 胡國平, 胡郁, 劉慶峰
【申請人】安徽科大訊飛信息科技股份有限公司
【公開日】2015年11月4日
【申請日】2014年4月30日

完整全部詳細技術資料下載

當前第4頁1 2 3 4

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實現(xiàn)聲音轉換的方法及系統(tǒng)的制作方法_4