專利名稱:可實現(xiàn)篡改定位的語音感知哈希內容認證方法
技術領域:
本發(fā)明屬于多媒體信息安全領域,基于語音感知哈希技術,提出了一種高效的可實現(xiàn)篡改區(qū)域精確定位的語音內容認證方法,可用于語音通信中的內容認證并可實現(xiàn)精確的篡改區(qū)域定位。
背景技術:
隨著數(shù)字信號處理技術、移動通信技術和互聯(lián)網(wǎng)等技術的快速發(fā)展,對音頻數(shù)據(jù)的偽造趨于隱蔽化,并且可以以極低的成本進行,因此對音頻數(shù)據(jù)的內容完整性認證需求日益增加。語音作為音頻的重要組成部分,其完整性在新聞報道、電話通信、金融交易、電子政務等應用中非常重要。語音的語義通過簡單的重排或去除幾個單詞就會改變,因此,語音的完整性與真實性只靠人類聽覺來判斷是遠遠不夠的。
對人類聽覺系統(tǒng)來講,語音內容認證技術需要保護的是語音內容而不是比特流本身的完整性,因此它應該能夠容忍一些保持語音聽覺質量或者語義的正常信號處理操作而不觸發(fā)檢測器。有效的內容完整性保護方法,不僅要滿足感知內容認證所必需的魯棒性、區(qū)分性,還需要滿足語音通信中的實時性,才能真正在語音認證系統(tǒng)中實用。語音內容認證技術可以實現(xiàn)對語音數(shù)據(jù)完整性、真實性進行保護,它保證接收到的語音數(shù)據(jù)在傳送過程中沒有經(jīng)過第三方的惡意編輯和篡改,即在人類聽覺感知系統(tǒng)的意義上與原始語音是完全相同的。可實現(xiàn)語音感知內容認證的技術主要有數(shù)字簽名,數(shù)字水印和感知哈希等。與數(shù)字水印技術相比,感知哈希技術不會對語音數(shù)據(jù)造成任何改變,其魯棒性也更好。當前針對語音的感知哈希的研究很少,尤其是用于語音內容認證,語音感知內容認證就是實現(xiàn)對通信終端的語音信號進行篡改檢測與定位。焦玉華等人(見文獻JIAOYu-hua, LI Qiong, NIU Xia-mu. Compressed domain perceptual hashing for MELPcoded speech[J]. IEEE Computer Society, 2008: 410-413.)提出了結合 MELP 的語音感知哈希算法;陳寧等人(見文獻CHEN Ning, WAN ffang-gen. Robust speech hashfunction [J], ETRI Journal, 2010, 32(2) : 345-347.)提出了基于線性預測系數(shù)(LPC)的非負矩陣分解(NMF)的魯棒語音哈希函數(shù);陳寧等人(見文獻CHEN Ning, WAN ffang-gen.Speech hashing algorithm based on short-time stability[C]// ICANN 2009, PartII,LNCS 5769,2009:426-434.)還提出了基于短時穩(wěn)定性的語音哈希算法。這些算法都能夠有效檢測惡意篡改,然而效率卻不是很高,也不能實現(xiàn)篡改定位。線性預測分析是目前分析語音信號最有效的方法之一。線性預測可用很少的參數(shù)有效而又正確地表現(xiàn)語音波形及其頻譜的性質,而且計算效率高,在應用上靈活方便。從LPC系數(shù)到LSP系數(shù)的轉化可采用多種方法求解,如代數(shù)方程式求解法,離散傅里葉變換法(DFT),切比雪夫多項式求解法等。LSP參數(shù)是LPC在頻域的一種等價表示,比LPC參數(shù)有更好的魯棒性,可用來估計基本的語音特性,與語音譜包絡的關系較時域的LPC更為緊密,并且具有更好的量化特性與插值特性,被廣泛的應用于各種語音編碼標準中,并且在語音識別等方面也得到了較好的應用。
一種認證算法的效率主要與提取的特征尺度、算法計算量和特征提取的復雜度三個因素有關。提取何種特征直接影響算法性能,為了達到較小的認證計算量與數(shù)據(jù)量,應該提取與語義相關的特征,而非信號特征。
發(fā)明內容
本發(fā)明的目的是提供一種可實現(xiàn)篡改定位的語音感知哈希內容認證方法。本發(fā)明是可實現(xiàn)篡改定位的語音感知哈希內容認證方法,其步驟為
(1)對語音信號A進行分幀,分為20ms的等長幀,使用漢明窗進行加窗,幀移為15ms;
(2)對每一幀語音信號進行LPC分析,求得其10階LPC系數(shù);
(3)將每一幀LPC系數(shù)轉化為LSP系數(shù),每一幀語音信號的LSP系數(shù)為一行組合為矩陣A;
(4)將LSP系數(shù)順序分組,并將各組加權分解矩陣A得新矩陣Aj;
(5)生成哈希向量
權利要求
1.可實現(xiàn)篡改定位的語音感知哈希內容認證方法,其步驟為 (1)對語音信號A進行分幀,分為20ms的等長幀,使用漢明窗進行加窗,幀移為15ms; (2)對每一幀語音信號進行LPC分析,求得其10階LPC系數(shù); (3)將每一幀LPC系數(shù)轉化為LSP系數(shù),每一幀語音信號的LSP系數(shù)為一行組合為矩陣A; (4)將LSP系數(shù)順序分組,并將各組加權分解矩陣A得新矩陣Aj; (5)生成哈希向量
2.根據(jù)權利要求I所述的可實現(xiàn)篡改定位的語音感知哈希內容認證方法,其特征在于轉換LPC系數(shù)為LSP系數(shù)的方法為DFT法。
3.根據(jù)權利要求I所述的可實現(xiàn)篡改定位的語音感知哈希內容認證方法,其特征在于分解矩陣A的步驟為 (1)確定語音信號總幀數(shù)為M,則分解后的矩陣&的行數(shù)為M/20;(2)矩陣
4.根據(jù)權利要求I所述的可實現(xiàn)篡改定位的語音感知哈希內容認證方法,其特征在于哈希匹配方法的步驟為 (1)計算不同內容語音的哈希序列的BER,記做BERl; (2)計算原始語音和對其進行篡改操作后的語音的哈希序列的BER,記做BER2; (3)計算原始語音和對其進行內容保持操作后的語音的哈希值的BER,記做BER3。
5.根據(jù)權利要求I所述的可實現(xiàn)篡改定位的語音感知哈希內容認證方法,其特征在于篡改區(qū)域定位方法的步驟為 (1)設識別閾值和認證閾值分別為r:和τ2 (.T^t2)- (2)先用識別閾值判別相同語音和不同語音,再對BER分布在T1和r2區(qū)間內的語音通過篡改定位進行二次認證,相同語音依然可以通過認證; 其中,篡改定位是基于哈希構造方法的,當某行哈希值的BER大于30%時,認為改行哈希值所對應的300ms,即15msX20的語音遭到篡改,而哈希值的行數(shù)決定了篡改語音在原始語音中的位置,能夠完成篡改區(qū)域的毫秒級定位。
全文摘要
可實現(xiàn)篡改定位的語音感知哈希內容認證方法,首先對語音信號進行預處理,并對每幀語音信號分別進行10階的線性預測分析,通過離散傅里葉變換法求得線譜對LSP系數(shù)作為感知特征;然后將語音數(shù)據(jù)順序分組,并將各組語音的LSP系數(shù)加權的期望順序組合作為最終的認證數(shù)據(jù),經(jīng)哈希構造來壓縮認證數(shù)據(jù)量;最后通過哈希匹配實現(xiàn)了對語音內容的快速認證。該方法對改變音量、回聲、重采樣等內容保持操作具有魯棒性,對替換、刪除等惡意操作敏感,可實現(xiàn)精確的篡改區(qū)域定位,且具有認證數(shù)據(jù)量小、運行效率高的特性,適用于資源受限的語音通信終端。
文檔編號G10L25/45GK102915740SQ20121040940
公開日2013年2月6日 申請日期2012年10月24日 優(yōu)先權日2012年10月24日
發(fā)明者張秋余, 邸燕君, 黃羿博, 陳海燕, 劉揚威, 省鵬飛, 楊仲平 申請人:蘭州理工大學