亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

具有編碼信息的語音變換的制作方法

文檔序號:2825605閱讀:147來源:國知局
具有編碼信息的語音變換的制作方法
【專利摘要】本發(fā)明提供用于語音變換的方法、系統(tǒng)及計算機程序產品。所述方法包括以下步驟:使用變換參數(shù)變換源語音(speech),及使用隱寫術將關于所述變換參數(shù)的信息編碼至輸出語音中,其中可使用所述輸出語音和關于所述變換參數(shù)的所述信息來重構所述源語音。本發(fā)明亦提供一種用于重構語音變換的方法,其包括以下步驟:接收語音變換系統(tǒng)的輸出語音,其中所述輸出語音是已使用隱寫術編碼有關于所述變換參數(shù)的信息的變換后的語音;提取關于所述變換參數(shù)的所述信息;及執(zhí)行所述輸出語音的逆變換,以獲取原始源語音的近似物。
【專利說明】具有編碼信息的語音變換【技術領域】
[0001]本發(fā)明涉及具有編碼信息的語音變換或語音變形的領域。具體地說,本發(fā)明涉及用于防止詐欺地使用修改后的語音的語音變換。
【背景技術】
[0002]語音變換使得能夠修改來自一人的語音樣本,以使該語音樣本聽起來似乎由其他人所說。存在兩種類型的變換:
[0003].修改語音,而無特定目標。舉例而言,將音高降低某個恒定量。
[0004].修改語音,以便語音聽起來盡可能接近目標說話者。
[0005]存在語音變換的許多用途。以下為一些實例:
[0006].影片配音。此允許一演員在一影片中配出若干語音,且亦允許在維持原始演員語音的同時以不同語言進行配音。
[0007].電信服務。各種服務允許呼叫者修改其語音。舉例而言,使用兒童最喜愛的卡通角色語音或名人語音向其發(fā)送生日祝賀。
[0008].玩具。語音變換可使用在游戲及玩具中以用于生成各種語音。舉例而言,以鸚鵡語音重復向其所說語句的鸚鵡狀玩偶。
[0009].音樂行業(yè)。諸如 AUT0-TUNE (自動調諧)工具(AUT0-TUNE 為 Antares AudioTechnologies的商標)的語音變換工具已在音樂行業(yè)中非常流行。
[0010].在線聊天。聊天文 本及SMS(短消息服務)可變換成語音類似于發(fā)送者語音的語音。
[0011].游戲。此允許在線游戲玩家用其在線化身的語音而非其自身語音說話。
[0012].然而,在心術不正的人手中,語音變換工具亦可被不適當?shù)厥褂?。不適當使用的實例包括以下內容:
[0013].未經許可假冒另一個人。
[0014].在執(zhí)行非法行為時進行語音偽裝,以避免識別。
[0015]目前,通??蓞^(qū)分自然語音與變換后的語音,并且不可能完全模仿不同說話者。然而,隨著研究的進展,預計在幾年內,語音變換系統(tǒng)的質量可能足夠高,從而難以與自然語音進行區(qū)分且難以與仿冒說話者進行區(qū)分。

【發(fā)明內容】

[0016]根據本發(fā)明的第一方面,提供一種用于語音變換的方法,包括:使用變換參數(shù)變換源語音;使用隱寫術(steganography)將關于所述變換參數(shù)的信息編碼至輸出語音中;其中可使用所述輸出語音和關于所述變換參數(shù)的所述信息來重構所述源語音。
[0017]根據本發(fā)明的第二方面,提供一種用于重構語音變換的方法,包括:接收語音變換系統(tǒng)的輸出語音,其中所述輸出語音是已用隱寫術編碼有關于所述變換參數(shù)的信息的變換后的語音;提取關于所述變換參數(shù)的所述信息;及執(zhí)行所述輸出語音的逆變換,以獲取原始源語音的近似物。
[0018]根據本發(fā)明的第三方面,提供一種用于語音變換的系統(tǒng),包括:處理器;語音變換組件,其用于利用變換參數(shù)變換源語音;及隱寫術組件,其用于利用隱寫術將關于所述變換參數(shù)的信息編碼至輸出語音中;其中可使用所述輸出語音和關于所述變換參數(shù)的所述信息來重構所述源語音。
[0019]根據本發(fā)明的第四方面,提供一種用于重構語音變換的系統(tǒng),包括:處理器;語音接收器,其用于接收輸入語音,其中所述輸入語音是已使用隱寫術編碼有關于所述變換參數(shù)的信息的變換后的語音;隱寫術解碼器組件,其用于從所述輸入語音解碼關于所述變換參數(shù)的所述信息;及語音重構組件,其用于執(zhí)行所述輸入語音的逆變換,以獲取原始源語音的近似物。
[0020]根據本發(fā)明的第五方面,提供一種用于語音變換的計算機程序產品,所述計算機程序產品包括:計算機可讀存儲介質,其具有隨之包含的計算機可讀程序代碼,所述計算機可讀程序代碼包括:被配置為執(zhí)行以下步驟的計算機可讀程序代碼:使用變換參數(shù)變換源語音;及使用隱寫術將關于所述變換參數(shù)的信息編碼至輸出語音中;其中可使用所述輸出語音和關于所述變換參數(shù)的所述信息來重構所述源語音。
【專利附圖】

【附圖說明】
[0021]參考附圖描述本發(fā)明的各優(yōu)選實施例,這些附圖是:
[0022]圖1為根據本發(fā)明的一個優(yōu)選實施例的語音變換方法的第一實施例的流程圖;
[0023]圖2為根據本發(fā)明的一個優(yōu)選實施例的語音變換方法的第二實施例的流程圖;
[0024]圖3為根據本發(fā)明的一個優(yōu)選實施例的重構語音變換的方法的一個實施例的流程圖;
[0025]圖4為根據本發(fā)明的一個優(yōu)選實施例的重構語音變換的方法的一個方面的流程圖;
[0026]圖5為根據本發(fā)明的一個優(yōu)選實施例的系統(tǒng)的第一實施例的方塊圖;
[0027]圖6為根據本發(fā)明的一個優(yōu)選實施例的系統(tǒng)的第二實施例的方塊圖;
[0028]圖7為根據本發(fā)明的一個優(yōu)選實施例的語音重構系統(tǒng)的方塊圖;及
[0029]圖8為其中可實施本發(fā)明的計算機系統(tǒng)的方塊圖。
[0030]應了解,為了說明的簡單及清楚起見,圖中所示的組件未必按比例畫出。舉例而言,為清晰起見,一些組件的尺寸可相對于其他組件夸大。另外,在視為適當處,可在諸圖中重復參考數(shù)字,以指示對應或類似的特征。
【具體實施方式】
[0031]在以下實施方式中,陳述了眾多特定細節(jié)以便提供對本發(fā)明的全面理解。然而,本領域技術人員應理解,本發(fā)明可在沒有所述特定細節(jié)的情況下實行。在其他例子中,未描述公知方法、程序及組件以免模糊本發(fā)明。
[0032]本文所使用的術語僅為了描述特定實施例,其并不意在限制本發(fā)明。如本文中所使用,單數(shù)形式“一”及“該”意欲亦包括復數(shù)形式,除非上下文另有清晰指示。應進一步理解,術語“包括”和/或“包含”在用于本說明書中時指定所陳述的特征、整數(shù)、步驟、操作、組件和/或組件的存在,但不排除一個或多個其他特征、整數(shù)、步驟、操作、組件、組件和/或其群組的存在或添加。
[0033]以下的權利要求中的對應結構、材料、操作以及所有功能性限定的裝置(means)或步驟的等同替換,旨在包括任何用于與在權利要求中具體指出的其它單元相組合地執(zhí)行該功能的結構、材料或操作。所給出的對本發(fā)明的描述其目的在于示意和描述,并非是窮盡性的,也并非是要將本發(fā)明限定到所表述的形式。對于所屬【技術領域】的普通技術人員來說,在不偏離本發(fā)明范圍和精神的情況下,顯然可以作出許多修改和變型。對實施例的選擇和說明,是為了最好地解釋本發(fā)明的原理和實際應用,使所屬【技術領域】的普通技術人員能夠明了,本發(fā)明可以有適合所要的特定用途的具有各種改變的各種實施方式。
[0034]描述了方法、系統(tǒng)及計算機程序產品,其中,將隱寫術或水印數(shù)據添加至變換后的語音,以便其可被識別且變換回原始語音。添加隱寫數(shù)據至語音對于質量僅有較小影響,因此,系統(tǒng)的輸出仍可用于大多數(shù)一般應用。
[0035]變換參數(shù)經由隱寫術而編碼至變換后的語音,以便可重構原始語音。所述變換參數(shù)可自變換后的語音取回,且可用于通過應用逆變換來重構原始語音。
[0036]在一實施例中,在語音變換發(fā)生后,可用隱寫術添加所述變換參數(shù)。
[0037]在另一實施例中,語音變換系統(tǒng)可通過在變換后語音的參數(shù)的調制中編碼所述變換參數(shù)而編碼所述變換參數(shù)。
[0038]在一些情況下,變換不可倒轉。在此類情況下,所述編碼變換參數(shù)為在應用至修改后的語音時應使其盡可能接近原始語音的那些變換參數(shù)??删幋a所述逆參數(shù),而非編碼所述變換參數(shù)本身。
[0039]如果某人使用此犯下詐欺或犯罪行為(例如,假冒不同人來呼叫銀行),則所記錄語音中的水印可被檢測到且可用于將變換后的語音倒轉回至原始語音(或其接近近似物)。隨后,這可用于追蹤或檢 測用戶。
[0040]任何意欲避免某人可能在利用語音變換系統(tǒng)的同時呼叫其的可能性的人可添加一系統(tǒng),所述系統(tǒng)檢測水印是否存在且如果水印存在于傳入語音中則發(fā)出警告。
[0041]參看圖1,流程圖100展示所述方法的第一實施例。接收101源語音,且通過語音變換系統(tǒng)執(zhí)行語音變換102。生成103變換后的語音。
[0042]語音變換系統(tǒng)視不同可調節(jié)參數(shù)而定對輸入語音應用不同變換??烧{節(jié)參數(shù)的實例包括:音高修改參數(shù)、頻譜變換矩陣、高斯混合(GMM)系數(shù)、加速/減速比率、噪聲水平修改參數(shù)等。所述參數(shù)可選自一系列預設配置,可手動調節(jié)或可通過比較源自兩種語音的語音樣本而自動訓練所述參數(shù)。
[0043]確定104用于語音變換中的所述變換參數(shù),且生成105關于所述變換參數(shù)的信息。關于所述變換參數(shù)的信息可為以下參數(shù)中的一個:所述變換參數(shù)本身、逆變換參數(shù)、編碼或加密變換參數(shù)或逆變換參數(shù),或變換參數(shù)或逆變換參數(shù)的近似值。
[0044]關于所述變換參數(shù)的所述信息可包括存儲所述參數(shù)本身的遠程數(shù)據庫的索引。索引可允許自數(shù)據庫取回所述參數(shù)。舉例而言,所述變換參數(shù)可置于網站中,且這些參數(shù)的統(tǒng)一資源定位器(URL)(例如,http://www----)可編碼至語音中。
[0045]關于所述變換參數(shù)的信息可包括來自語音變換系統(tǒng)的量化后的變換參數(shù)(或所述逆變換參數(shù)),其以二進制形式編碼且亦可能被壓縮及加密。接著可用隱寫術將二進制數(shù)據編碼至輸出語音中。
[0046]對變換后的語音應用106隱寫術方法以將關于所述變換參數(shù)的信息編碼至變換后的語音中。這通過將作為隱寫術信號(作為隱藏數(shù)據或水印)的關于所述變換參數(shù)的信息與變換后的語音相組合來完成,以生成輸出語音107。應用至音頻數(shù)據的隱寫術方法可在插入呈信號噪聲形式的信息的簡單算法至利用復雜信號處理技術來隱藏信息的復雜算法的范圍內變化。音頻隱寫術的一些實例包括LSB(最低有效位)編碼、奇偶校驗編碼、相位編碼、展頻及回聲隱藏(echo hiding)。
[0047]一些隱寫算法通過操縱不同語音參數(shù)而工作。這些算法可直接在語音變換系統(tǒng)內操作,且這在參看圖2的所述方法的第二實施例中予以描述。
[0048]參看圖2,流程圖200展示如在語音變換系統(tǒng)中執(zhí)行的所述方法的一個實施例。接收201源語音,且對源語音建模202以獲取模型參數(shù)203。
[0049]生成204變換參數(shù),將變換參數(shù)應用于所述模型參數(shù)以修改205源語音的所述模型參數(shù)。
[0050]如圖1的方法,可生成206關于所述變換參數(shù)的信息。關于所述變換參數(shù)的信息可為以下參數(shù)中的一個:所述變換參數(shù)本身、逆變換參數(shù)、編碼或加密變換參數(shù)或逆變換參數(shù),或變換參數(shù)或逆變換參數(shù)的近似值。關于所述變換參數(shù)的信息可包括來自語音變換系統(tǒng)的量化后的變換參數(shù)(或逆變換參數(shù)),其以二進制形式編碼且亦可能被壓縮及加密。所述變換參數(shù)可存儲于數(shù)據庫中,且關于所述變換參數(shù)的信息可為允許自數(shù)據庫取回所述變換參數(shù)的索引。
[0051]通過在修改后的模型參數(shù)內編碼207而將關于所述變換參數(shù)的信息應用于隱寫術方法中。接著將編碼的修改后的模型參數(shù)應用208于最終語音合成中,且生成輸出語音209。
[0052]在第二實施例中,將編碼后的變換系數(shù)與變換后的語音參數(shù)相組合。舉例而言,所述系數(shù)可編碼為最終語音的修改后的音高曲線上的小變化。
[0053]舉例而言,可通過語音變換系統(tǒng)將變換數(shù)據編碼至音高曲線中。語音變換系統(tǒng)通??刂戚敵鲂盘柕囊舾咔€。通常針對每一短幀(5-20毫秒)調整音高。可對于幀η取以赫茲為單位的整數(shù)音高Pn且最后一個位被替換為來自數(shù)據dn的位:
[0054]
【權利要求】
1.一種用于語音變換的方法,所述方法包括: 使用變換參數(shù)變換源語音; 使用隱寫術將關于所述變換參數(shù)的信息編碼至輸出語音中; 其中可使用所述輸出語音和關于所述變換參數(shù)的所述信息來重構所述源語音。
2.如權利要求1的方法,其中編碼關于所述變換參數(shù)的信息包括: 在變換步驟后,通過將包括關于所述變換參數(shù)的所述信息的隱寫信號和變換后的語音相組合而將所述信息編碼至變換后的語音中,以生成所述輸出語音。
3.如權利要求1的方法,其中編碼關于所述變換參數(shù)的信息包括: 在變換所述輸入語音期間,通過將關于所述變換參數(shù)的所述信息與變換后的語音參數(shù)相組合而編碼所述信息。
4.如權利要求1的方法,其中可使用關于所述變換參數(shù)的所述信息將所述輸出語音重構成所述源語音的接近近似物。
5.如權利要求1的方法,其中關于所述變換參數(shù)的所述信息包括以下參數(shù)組中的一個:所述變換參數(shù)、逆變換參數(shù)、壓縮或加密變換參數(shù)或逆變換參數(shù)、所述變換參數(shù)或逆變換參數(shù)的近似值、來自源語音和變換后的語音的訓練后的逆變換參數(shù)集、遠程存儲的變換參數(shù)或逆變換參數(shù)的索引。
6.如權利要求1的方 法,包括: 編輯關于所述變換參數(shù)的所述信息,包括: 量化所述變換參數(shù);及 將量化后的變換參數(shù)轉化為二進制流。
7.如權利要求1的方法,包括: 通過訓練用于將變換后的語音轉化為源語音的逆參數(shù)而編輯關于所述變換參數(shù)的所述信息。
8.如權利要求1的方法,包括: 將所述變換參數(shù)或逆變換參數(shù)存儲在遠程位置;及 編輯關于所述變換參數(shù)的所述信息包括提供對遠程存儲器的索引。
9.一種用于重構語音變換的方法,所述方法包括: 接收語音變換系統(tǒng)的輸出語音,其中所述輸出語音是已使用隱寫術編碼有關于所述變換參數(shù)的信息的變換后的語音; 提取關于所述變換參數(shù)的所述信息;及 執(zhí)行所述輸出語音的逆變換,以獲取原始源語音的近似物。
10.如權利要求9的方法,包括: 檢測所接收的輸出語音中的編碼信息;及 發(fā)出所接收的輸出語音是變換后的語音的警告。
11.如權利要求9的方法,其中提取關于所述變換參數(shù)的所述信息的步驟提取加密信息,并且所述方法包括: 使用解密密鑰解密關于所述變換參數(shù)的所述加密信息。
12.一種用于語音變換的系統(tǒng),所述系統(tǒng)包括: 處理器;語音變換組件,其用于使用變換參數(shù)變換源語音?’及 隱寫術組件,其用于使用隱寫術將關于所述變換參數(shù)的信息編碼至輸出語音中; 其中可使用所述輸出語音和關于所述變換參數(shù)的所述信息來重構所述源語音。
13.如權利要求12的系統(tǒng),其中所述隱寫術組件通過將包括關于所述變換參數(shù)的所述信息的隱寫信號和變換后的語音相組合而將所述信息編碼至所述語音變換組件的所述輸出中,以生成所述輸出語音。
14.如權利要求12的系統(tǒng),其中所述隱寫術組件集成在所述語音變換組件中,且在變換所述輸入語音期間通過將關于所述變換參數(shù)的所述信息與變換后的語音參數(shù)相組合而編碼所述信息。
15.如權利要求14的系統(tǒng),其中所述語音變換組件包括變換參數(shù)組件,所述變換參數(shù)組件將變換參數(shù)提供給參數(shù)修改組件和所述隱寫術組件。
16.如權利要求12的系統(tǒng),包括:編輯組件,其用于編輯關于所述變換參數(shù)的所述信息,所述編輯組件包括: 量化組件,其用于量化所述變換參數(shù);及 二進制流組件,其用于將量化后的變換參數(shù)轉化為二進制流。
17.如權利要求12的系統(tǒng),包括: 編輯組件,其用于通過訓練 用于將變換后的語音轉化為源語音的逆參數(shù)而編輯關于所述變換參數(shù)的所述信息。
18.如權利要求12的系統(tǒng),包括: 編輯組件,其用于通過將所述變換參數(shù)或逆變換參數(shù)存儲在遠程位置和提供對遠程存儲器的索引而編輯關于所述變換參數(shù)的所述信息。
19.如權利要求12的系統(tǒng),其中關于所述變換參數(shù)的所述信息包括以下參數(shù)組中的一個:所述變換參數(shù)、逆變換參數(shù)、壓縮或加密變換參數(shù)或逆變換參數(shù)、所述變換參數(shù)或逆變換參數(shù)的近似值、來自源語音和變換后的語音的訓練后的逆變換參數(shù)集、遠程存儲的變換參數(shù)或逆變換參數(shù)的索引。
20.一種用于重構語音變換的系統(tǒng),所述系統(tǒng)包括: 處理器; 語音接收器,其用于接收輸入語音,其中所述輸入語音是已使用隱寫術編碼有關于所述變換參數(shù)的信息的變換后的語音; 隱寫術解碼器組件,其用于從所述輸入語音解碼關于所述變換參數(shù)的所述信息 '及 語音重構組件,其用于執(zhí)行所述輸入語音的逆變換,以獲取原始源語音的近似物。
21.如權利要求20的系統(tǒng),包括: 檢測組件,其用于檢測所接收的輸出語音中的編碼信息 '及 警告組件,其用于發(fā)出所接收的輸出語音是變換后的語音的警告。
22.如權利要求20的系統(tǒng),其中所述隱寫術解碼器組件包括解密組件,所述解密組件用于利用解密密鑰來解密關于所述變換參數(shù)的加密信息。
23.一種用于語音變換的計算機程序產品,所述計算機程序產品包括: 計算機可讀存儲介質,其具有隨之包含的計算機可讀程序代碼,所述計算機可讀程序代碼包括:被配置為執(zhí)行以下步驟的計算機可讀程序代碼:使用變換參數(shù)變換源語音;及使用隱寫術將關于所述變換參數(shù)的信息編碼至輸出語音中;其中可使用所述輸出 語音和關于所述變換參數(shù)的所述信息來重構所述源語音。
【文檔編號】G10L21/003GK103430234SQ201280013374
【公開日】2013年12月4日 申請日期:2012年3月13日 優(yōu)先權日:2011年3月17日
【發(fā)明者】Z·康斯, R·霍瑞, D·納哈莫, S·本-戴維 申請人:國際商業(yè)機器公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1