亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實現(xiàn)聲音轉換的方法及系統(tǒng)的制作方法_4

文檔序號:9305367閱讀:來源:國知局
>[0189] 第三訓練單元,用于根據(jù)所述對應關系訓練轉換模型參數(shù);
[0190] 合并單元,用于將所述源發(fā)音人模型參數(shù)、轉換模型參數(shù)、以及目標發(fā)音人模型參 數(shù)進行合并,得到所述源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型參數(shù)。
[0191] 基于上述構建的頻譜包絡變換模型,上述頻譜包絡特征轉換模塊703對從源發(fā)音 人的語音信號中提取的頻譜包絡特征進行轉換,得到轉換后的頻譜包絡特征。上述頻譜包 絡特征轉換模塊703的一種具體結構包括:條件概率分布計算單元和轉換特征確定單元。 其中:所述條件概率分布計算單元于根據(jù)所述頻譜包絡變換模型計算所述頻譜包絡特征的 條件概率分布;所述轉換特征確定單元用于根據(jù)所述條件概率分布確定轉換后的頻譜包絡 特征。具體的計算過程可參照前面本發(fā)明方法實施例中的描述,在此不再贅述。
[0192] 本發(fā)明實施例實現(xiàn)聲音轉換的系統(tǒng),基于頻譜包絡變換模型將源發(fā)音人語音信號 的頻譜包絡特征變換為目標發(fā)音人的頻譜包絡特征,然后,基于變換后的頻譜包絡特征及 基頻特征生成目標發(fā)音人的語音信號。由于頻譜包絡特征是從高維頻譜包絡中提取出來 的,是語音信號最直接、準確的表示,因此可以大大提高頻譜包絡變換的有效性和準確性, 進而提高聲音轉換的效果。
[0193] 本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部 分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實 施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關之處參見方法實施例 的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明 的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是 物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據(jù)實際的需要 選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領域普通技術人員在不付出 創(chuàng)造性勞動的情況下,即可以理解并實施。
[0194] 以上對本發(fā)明實施例進行了詳細介紹,本文中應用了【具體實施方式】對本發(fā)明進行 了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及設備;同時,對于本領域的 一般技術人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應用范圍上均會有改變之處,綜上所 述,本說明書內容不應理解為對本發(fā)明的限制。
【主權項】
1. 一種實現(xiàn)聲音轉換的方法,其特征在于,包括: 獲取源發(fā)音人的語音信號; 提取所述語音信號的頻譜包絡特征和基頻特征; 根據(jù)預先構建的頻譜包絡變換模型對所述頻譜包絡特征進行轉換,得到轉換后的頻譜 包絡特征; 根據(jù)轉換后的頻譜包絡特征和轉換后的基頻特征生成目標發(fā)音人的語音信號。2. 根據(jù)權利要求1所述的方法,其特征在于,所述提取所述語音信號的頻譜包絡特征 包括: 對于每一幀語音幀,提取其上下多幀的頻譜包絡特征作為所述語音幀的頻譜包絡特 征。3. 根據(jù)權利要求1所述的方法,其特征在于,按以下方式構建頻譜包絡變換模型: 獲取訓練語音數(shù)據(jù),所述訓練語音數(shù)據(jù)包括源發(fā)音人語音數(shù)據(jù)及目標發(fā)音人語音數(shù) 據(jù); 提取所述訓練語音數(shù)據(jù)的頻譜包絡特征; 確定源發(fā)音人的頻譜包絡特征與目標發(fā)音人的頻譜包絡特征的對應關系; 確定源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型拓撲結構; 根據(jù)所述對應關系訓練所述源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型參數(shù)。4. 根據(jù)權利要求3所述的方法,其特征在于,所述確定源發(fā)音人的頻譜包絡特征與目 標發(fā)音人的頻譜包絡特征的對應關系包括: 以語音幀為單位,提取所述訓練語音信號的美爾倒譜特征序列; 將源發(fā)音人的美爾倒譜特征序列與目標發(fā)音人的美爾倒譜特征序列對齊; 根據(jù)所述源發(fā)音人的美爾倒譜特征序列與目標發(fā)音人的美爾倒譜特征序列的對應關 系,確定源發(fā)音人的頻譜包絡特征與目標發(fā)音人的頻譜包絡特征的對應關系。5. 根據(jù)權利要求3所述的方法,其特征在于,所述確定源發(fā)音人和目標發(fā)音人的頻譜 包絡變換模型拓撲結構包括: 利用第一 RBM模型模擬源發(fā)音人頻譜包絡分布特點,并將其作為源發(fā)音人模型; 利用第二RBM模型模擬目標發(fā)音人頻譜包絡分布特點,并將其作為目標發(fā)音人模型; 利用BBAM模型模擬源發(fā)音人和目標發(fā)音人之間的參數(shù)傳遞關系,并將其作為轉換模 型; 拼接所述源發(fā)音人模型、轉換模型、以及目標發(fā)音人模型,得到源發(fā)音人和目標發(fā)音人 的頻譜包絡變換模型拓撲結構。6. 根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)所述對應關系訓練所述源發(fā)音 人和目標發(fā)音人的頻譜包絡變換模型參數(shù)包括: 獲取訓練數(shù)據(jù),所述訓練數(shù)據(jù)包括源發(fā)音人頻譜包絡數(shù)據(jù)和目標發(fā)音人頻譜包絡數(shù) 據(jù); 根據(jù)所述源發(fā)音人頻譜包絡數(shù)據(jù)訓練源發(fā)音人模型參數(shù),并根據(jù)所述目標發(fā)音人頻譜 包絡數(shù)據(jù)訓練目標發(fā)音人模型參數(shù); 根據(jù)所述對應關系訓練轉換模型參數(shù); 將所述源發(fā)音人模型參數(shù)、轉換模型參數(shù)、以及目標發(fā)音人模型參數(shù)進行合并,得到所 述源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型參數(shù)。7. 根據(jù)權利要求6所述的方法,其特征在于,所述根據(jù)所述對應關系訓練轉換模型參 數(shù)包括: 從所述訓練數(shù)據(jù)中采樣得到轉換模型參數(shù)訓練數(shù)據(jù); 基于所述轉換模型參數(shù)訓練數(shù)據(jù)訓練轉換模型參數(shù)。8. 根據(jù)權利要求1至7任一項所述的方法,其特征在于,所述根據(jù)預先構建的頻譜包絡 變換模型對所述頻譜包絡特征進行轉換,得到轉換后的頻譜包絡特征包括: 根據(jù)所述頻譜包絡變換模型計算所述頻譜包絡特征的條件概率分布; 根據(jù)所述條件概率分布確定轉換后的頻譜包絡特征。9. 一種實現(xiàn)聲音轉換的系統(tǒng),其特征在于,包括: 語音信號獲取模塊,用于獲取源發(fā)音人的語音信號; 特征提取模塊,用于提取所述語音信號的頻譜包絡特征和基頻特征; 頻譜包絡特征轉換模塊,用于根據(jù)預先構建的頻譜包絡變換模型對所述頻譜包絡特征 進行轉換,得到轉換后的頻譜包絡特征; 語音生成模塊,用于根據(jù)轉換后的頻譜包絡特征和轉換后的基頻特征生成目標發(fā)音人 的語音信號。10. 根據(jù)權利要求9所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括:頻譜包絡變換模型構 建模塊,所述頻譜包絡變換模型構建模塊包括: 訓練語音數(shù)據(jù)獲取單元,用于獲取訓練語音數(shù)據(jù),所述訓練語音數(shù)據(jù)包括源發(fā)音人語 音數(shù)據(jù)及目標發(fā)音人語音數(shù)據(jù); 特征提取單元,用于提取所述訓練語音數(shù)據(jù)的頻譜包絡特征; 對應關系確定單元,用于確定源發(fā)音人的頻譜包絡特征與目標發(fā)音人的頻譜包絡特征 的對應關系; 拓撲結構確定單元,用于確定源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型拓撲結構; 參數(shù)訓練單元,用于根據(jù)所述對應關系訓練所述源發(fā)音人和目標發(fā)音人的頻譜包絡變 換模型參數(shù)。11. 根據(jù)權利要求10所述的系統(tǒng),其特征在于,所述對應關系確定單元包括: 第一提取單元,用于以語音幀為單位,提取所述訓練語音信號的美爾倒譜特征序列; 對齊單元,用于將源發(fā)音人的美爾倒譜特征序列與目標發(fā)音人的美爾倒譜特征序列對 齊; 第一確定單元,用于根據(jù)所述源發(fā)音人的美爾倒譜特征序列與目標發(fā)音人的美爾倒譜 特征序列的對應關系,確定源發(fā)音人的頻譜包絡特征與目標發(fā)音人的頻譜包絡特征的對應 關系。12. 根據(jù)權利要求10所述的系統(tǒng),其特征在于,所述拓撲結構確定單元包括: 源發(fā)音人模型單元,用于利用第一 RBM模型模擬源發(fā)音人頻譜包絡分布特點,并將其 作為源發(fā)音人模型; 目標發(fā)音人模型單元,用于利用第二RBM模型模擬目標發(fā)音人頻譜包絡分布特點,并 將其作為目標發(fā)音人模型; 轉換模型單元,用于利用BBAM模型模擬源發(fā)音人和目標發(fā)音人之間的參數(shù)傳遞關系, 并將其作為轉換模型; 拼接單元,用于拼接所述源發(fā)音人模型、轉換模型、以及目標發(fā)音人模型,得到源發(fā)音 人和目標發(fā)音人的頻譜包絡變換模型拓撲結構。13. 根據(jù)權利要求12所述的系統(tǒng),其特征在于,所述參數(shù)訓練單元包括: 獲取頻譜包絡訓練數(shù)據(jù)單元,用于獲取訓練數(shù)據(jù),所述訓練數(shù)據(jù)包括源發(fā)音人頻譜包 絡數(shù)據(jù)和目標發(fā)音人頻譜包絡數(shù)據(jù); 第一訓練單元,用于根據(jù)所述源發(fā)音人頻譜包絡數(shù)據(jù)訓練源發(fā)音人模型參數(shù); 第二訓練單元,用于根據(jù)所述目標發(fā)音人頻譜包絡數(shù)據(jù)訓練目標發(fā)音人模型參數(shù); 第三訓練單元,用于根據(jù)所述對應關系訓練轉換模型參數(shù); 合并單元,用于將所述源發(fā)音人模型參數(shù)、轉換模型參數(shù)、以及目標發(fā)音人模型參數(shù)進 行合并,得到所述源發(fā)音人和目標發(fā)音人的頻譜包絡變換模型參數(shù)。14. 根據(jù)權利要求9至13任一項所述的系統(tǒng),其特征在于,所述頻譜包絡特征轉換模塊 包括: 條件概率分布計算單元,用于根據(jù)所述頻譜包絡變換模型計算所述頻譜包絡特征的條 件概率分布; 轉換特征確定單元,用于根據(jù)所述條件概率分布確定轉換后的頻譜包絡特征。
【專利摘要】本發(fā)明涉及語音合成技術領域,公開了一種實現(xiàn)聲音轉換的方法及系統(tǒng),該方法包括:獲取源發(fā)音人的語音信號;提取所述語音信號的頻譜包絡特征和基頻特征;根據(jù)預先構建的頻譜包絡變換模型對所述頻譜包絡特征進行轉換,得到轉換后的頻譜包絡特征;根據(jù)轉換后的頻譜包絡特征和基頻特征生成目標發(fā)音人的語音信號。利用本發(fā)明,可以有效提高轉換語音的音質。
【IPC分類】G10L15/02, G10L13/02
【公開號】CN105023570
【申請?zhí)枴緾N201410182517
【發(fā)明人】陳凌輝, 江源, 凌震華, 胡國平, 胡郁, 劉慶峰
【申請人】安徽科大訊飛信息科技股份有限公司
【公開日】2015年11月4日
【申請日】2014年4月30日
當前第4頁1 2 3 4 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1