一種在音頻中嵌入與檢測數(shù)字信息的方法
【專利摘要】本發(fā)明公開一種在音頻中嵌入與檢測數(shù)字信息的方法,包括:將載體音頻和水印信息分幀,得到分幀的載體音頻和分幀的水印信息;計算得到每一幀可嵌入所述水印信息的功率系數(shù);對所述分幀的水印信息進行處理,得到幅度處理后的分幀的水印信息;將所述幅度處理后的分幀的水印信息疊加在所述分幀的載體音頻上,得到最終的輸出音頻。直接利用18000~20000Hz的頻段,無需對載體音頻進行分析,計算復(fù)雜度低,且不影響載體音質(zhì)??捎眠\算能力和電池容量有限的便攜設(shè)備,如手機、平板電腦等可穿戴電子設(shè)備的麥克風接收聲音,通過運行在可穿戴電子設(shè)備上的應(yīng)用軟件恢復(fù)出水印,并且識別能力可以抵抗正常室內(nèi)、車載等環(huán)境噪聲的影響。
【專利說明】一種在音頻中嵌入與檢測數(shù)字信息的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)字信號處理【技術(shù)領(lǐng)域】,尤其涉及一種在音頻中嵌入與檢測數(shù)字信息的方法,適合于數(shù)字電視、數(shù)字廣播、互聯(lián)網(wǎng)音視頻。
【背景技術(shù)】
[0002]廣播電視以及互聯(lián)網(wǎng)多媒體視聽服務(wù)中,要利用音頻傳遞信息,通常采用:
1、聲紋技術(shù),即預(yù)先提取音頻的頻率與時間特征,通常稱為“聲紋”,存儲在聲紋數(shù)據(jù)庫中,客戶端接收音頻時,提取音頻的聲紋,在聲紋數(shù)據(jù)庫中進行匹配和索引,得到相應(yīng)的信息。此種聲紋技術(shù)不在載體聲音信號中加入任何信號,但是需要對識別的音頻預(yù)先提取頻率與時間特征,并維護一個龐大的特征數(shù)據(jù)庫,步驟繁瑣復(fù)雜,此外聲紋技術(shù)受外部環(huán)境噪音影響較大。
[0003]2、利用人耳的聽覺掩蔽效應(yīng),包括頻域掩蔽效應(yīng)和時域掩蔽效應(yīng),在音頻中人耳不敏感的頻段或時間段嵌入信息,也稱為水印,并在接收端進行檢測,該技術(shù)占用頻段窄,只適合窄帶音頻系統(tǒng)應(yīng)用,如調(diào)頻廣播、電話等,并且實現(xiàn)較復(fù)雜,計算過程繁瑣并且需要對載體音頻進行分析。
[0004]除此之外,現(xiàn)有的廣播音頻水印技術(shù)在檢測端需要使用專用設(shè)備,無法應(yīng)用于運算能力和電池容量有限的便攜設(shè)備,如手機、平板電腦等可穿戴電子設(shè)備上。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明提供一種在音頻中嵌入與檢測數(shù)字信息的方法,以解決目前音頻水印技術(shù)實現(xiàn)較復(fù)雜,計算過程繁瑣,需要對載體音頻進行分析,且在檢測端需要使用專用設(shè)備,無法應(yīng)用于運算能力和電池容量有限的可穿戴電子設(shè)備上的技術(shù)問題。
[0006]技術(shù)方案:一種在音頻中嵌入與檢測數(shù)字信息的方法,包括:將載體音頻和水印信息分幀,得到分幀的載體音頻和分幀的水印信息;自所述分幀的載體音頻的每一幀中讀取出每一幀的最大幅度值,計算得到每一幀可嵌入所述水印信息的功率系數(shù);將所述分幀的載體音頻和分幀的水印信息按幀對齊,對所述分幀的水印信息進行處理,得到幅度處理后的分幀的水印信息;將所述幅度處理后的分幀的水印信息疊加在所述分幀的載體音頻上,得到最終的輸出音頻。
[0007]進一步的,對所述分幀的水印信息進行處理的過程包括:將所述分幀的水印信息的每一幀數(shù)據(jù)的幅度,與相對應(yīng)的載體幀內(nèi)計算得到的所述功率系數(shù)相乘,從而得到所述幅度處理后的分幀的水印信息。
[0008]進一步的,所述在音頻中嵌入與檢測數(shù)字信息的方法還包括:將以二進制數(shù)字表示的需要傳遞的信息進行二進制相移檢控(BPSK, Binary Phase Shift Keying)調(diào)制,將調(diào)制后的所述需要傳遞的信息按照載波的采樣率進行保存,得到所述水印信息。
[0009]進一步的,所述載波的米樣率不低于44100赫茲,若所述載波的米樣率低于44100赫茲,則對所述載波進行重采樣,將所述載波的采樣率轉(zhuǎn)換為44100赫茲。
[0010]進一步的,所述載波的時間長度大于等于所述水印信息的時間長度。
[0011]進一步的,所述在音頻中嵌入與檢測數(shù)字信息的方法還包括:接收端設(shè)備的麥克風采用44100赫茲的采樣率對所述輸出音頻進行錄制,并分為時間長度為I秒的幀。
[0012]進一步的,所述在音頻中嵌入與檢測數(shù)字信息的方法還包括所述接收端設(shè)備將所述錄制的輸出音頻數(shù)據(jù)與19000赫茲的載頻相乘,完成下變頻;所述接收端設(shè)備對所述下變頻處理后的輸出音頻進行BPSK解調(diào),得到嵌入的所述水印信息。
[0013]進一步的,所述接收端設(shè)備為智能手機或平板電腦。
[0014]本發(fā)明所帶來的有益效果:僅根據(jù)頻域掩蔽效應(yīng),直接利用18000?20000Hz的頻段,無需對載體音頻進行分析,嵌入與檢測的計算復(fù)雜度低,運算簡單,適合于數(shù)字電視、數(shù)字廣播、互聯(lián)網(wǎng)音視頻等系統(tǒng),且不影響載體音質(zhì),使嵌入的信息不被人耳感知。可用運算能力和電池容量有限的便攜設(shè)備,如手機、平板電腦等可穿戴電子設(shè)備的麥克風接收聲音,通過運行在可穿戴電子設(shè)備上的應(yīng)用軟件恢復(fù)出水印,并且識別能力可以抵抗正常室內(nèi)、車載等環(huán)境噪聲的影響。
【專利附圖】
【附圖說明】
[0015]圖1是本發(fā)明一種在音頻中嵌入與檢測數(shù)字信息的方法的流程示意圖。
【具體實施方式】
[0016]以下描述和附圖充分地示出本發(fā)明的具體實施方案,以使本領(lǐng)域的技術(shù)人員能夠?qū)嵺`它們。實施例僅代表可能的變化。除非明確要求,否則單獨的部件和功能是可選的,并且操作的順序可以變化。一些實施方案的部分和特征可以被包括在或替換其他實施方案的部分和特征。
[0017]為了更好的理解本發(fā)明,下面簡述掩蔽效應(yīng),掩蔽效應(yīng)指人的耳朵只對最明顯的聲音反應(yīng)敏感,而對于不敏感的聲音,反應(yīng)則較不為敏感。例如在聲音的整個頻率譜中,如果某一個頻率段的聲音比較強,則人就對其它頻率段的聲音不敏感了。一個強純音會掩蔽在其附近同時發(fā)聲的弱純音,這種特性稱為頻域掩蔽,除了同時發(fā)出的聲音之間有掩蔽現(xiàn)象之外,在時間上相鄰的聲音之間也有掩蔽現(xiàn)象,稱為時域掩蔽,產(chǎn)生時域掩蔽的主要原因是人的大腦處理信息需要花費一定的時間。
[0018]人耳對不同頻段的聲音的敏感程度是不同的,例如,對于20KHz的聲音,響度要達到70dB左右,人耳聽起來的響度才相當于頻率為IKHz響度為5dB的聲音,所以在O至3KHz范圍內(nèi)的較小的聲音就可以容易地掩蔽15KHz以上的聲音。本篇技術(shù)方案就利用了時域掩蔽效應(yīng),不需要對載體音頻進行分析,直接在ISKHz以上嵌入水印信息。
[0019]在一些說明性的實施例中,如圖1所示,提供一種在音頻中嵌入與檢測數(shù)字信息的方法,包括:
101:對所述需要傳遞的信息進行BPSK調(diào)制,BPSK為把模擬信號轉(zhuǎn)換成數(shù)據(jù)值的轉(zhuǎn)換方式之一,利用偏離相位的復(fù)數(shù)波浪組合來表現(xiàn)信息鍵控移相方式。其中,需要傳遞的信息以二進制數(shù)字表示,一幀數(shù)據(jù)長度為80bit,速率為200bps,一幀長度400ms,每幀重復(fù)發(fā)送10次,即一次發(fā)送SOObit數(shù)據(jù),持續(xù)時間4s。BPSK調(diào)制過程為:將所述需要傳遞的信息經(jīng)過成型濾波器濾波后,輸入混頻器,與頻率為19000Hz的載波相乘。調(diào)制過程用軟件方式完成,所述成型濾波器和混頻器基礎(chǔ)采樣率為44100Hz,所述需要傳遞的信息和載波也都經(jīng)過44100Hz采樣后輸入系統(tǒng)。所述成型濾波器是平方根升余弦型濾波器,長度為10,歸一化后的截止頻率為0.22。所述混頻器是將所述需要傳遞的信息和載波直接相乘并輸出結(jié)果,重采樣將混頻后采樣率為44100Hz的信號進行插值,得到所需采樣率,通常采用的方法為線性插值。
[0020]調(diào)制所需的載波頻率為19000Hz,將調(diào)制后所述需要傳遞的信息按照載波的采樣率進行保存,即存儲為與所述載波相同的采樣率,得到待嵌入的水印信息。所述載波的采樣率不低于44100Hz,若所述載波的采樣率低于44100Hz,則需對所述載波進行重采樣,將所述載波的采樣率轉(zhuǎn)換為44100Hz。
[0021]并且,所述載波的時間長度大于等于所述水印信息的時間長度,否則無法利用本發(fā)明所提供的方法嵌入所述水印信息。
[0022]102:將載體音頻分幀,每一幀是長度為400ms的一段音頻,幀與幀之間無重疊,得到分幀的載體音頻A[n],則A[1]、A[2]、A[3]…都是長度為400ms的一段音頻。并且,將水印信息分幀,得到分幀的水印信息W[n],則W[l]、W[2]、W[3]...也都是長度為400ms的音頻。
[0023]103:完整的讀取所述分幀的載體音頻A[n]的每一幀,尋找?guī)瑑?nèi)聲音幅度的最大值A(chǔ)max [η],計算得到每一幀可嵌入所述水印信息的功率系數(shù)C[η],計算過程如下所示:
C[n]=1-Amax[η]
因此,由于Amax [η]是Α[η]這段載體音頻的最大幅度值,并且功率系數(shù)C[n]由Amax [η]計算得到,所以 A[l]對應(yīng) Amax[l]和 C[1],A[2]對應(yīng) Amax[2]和 C[2]...104:將所述分幀的載體音頻A[n]和分幀的水印信息W[n]按幀對齊,對所述分幀的水印信息W[n]進行處理,其中,所述處理過程包括:將所述分幀的水印信息W[n]的每一幀數(shù)據(jù)的幅度,與相對應(yīng)的載體幀內(nèi)計算得到的所述功率系數(shù)C[n]相乘,則可以得到幅度處理后的分幀的水印信息W[n] XC[n]。
[0024]105:將所述幅度處理后的分幀的水印信息W[n] XC[η]疊加在所述分幀的載體音頻Α[η]上,得到最終的輸出音頻:A[n]+W[n] XC[n],即所述最終的輸出音頻包含所述載體音頻和水印信息。
[0025]計算機處理的過程中,所述載體音頻也是被數(shù)字化的,所以實際上每一幀載體音頻也是以一組數(shù)據(jù)的形式存儲的。以采樣率為48000Hz為例,400ms長度的載體音頻,包含有48000X0.4=19200個數(shù)據(jù),即每個A[n]和W[n]都同樣包含19200個數(shù)據(jù),在一幀的長度之內(nèi),C[n]是一個計算得到的系數(shù)。這樣,求和計算A[n]+W[n]XC[n]得到的是包含有19200個數(shù)據(jù),采樣率為48000Hz,長度400ms的一段新的數(shù)據(jù),即得到作為一幀新的音頻的所述最終的輸出音頻。
[0026]106:接收端設(shè)備的麥克風采用44100赫茲的采樣率對所述輸出音頻進行錄制,并分為時間長度為I秒的中貞。
[0027]107:所述接收端設(shè)備將所述錄制的輸出音頻數(shù)據(jù)與19000赫茲的載頻相乘,完成下變頻;
108:所述接收端設(shè)備對所述下變頻處理后的輸出音頻進行BPSK解調(diào),得到嵌入的所述水印信息。所述BPSK解調(diào)過程基本為所述BPSK調(diào)制的逆過程,19000Hz載波由接收信號重建而來,接收到的信號與19000Hz載波混頻后,經(jīng)低通濾波器、抽樣判決得到解調(diào)的數(shù)據(jù)即所述水印信息。
[0028]在一些說明性的實施例中,所述接收端設(shè)備為手機或平板電腦。通過運行在可穿戴電子設(shè)備上的應(yīng)用軟件恢復(fù)出水印信息,在檢測端無需使用專用設(shè)備,使得廣播音頻水印技術(shù)應(yīng)用于運算能力和電池容量有限的便攜設(shè)備,如手機、平板電腦等可穿戴電子設(shè)備上。
[0029]上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的限制,其他任何未背離本發(fā)明的精神實質(zhì)與原理下所做的改變,修飾,替代,組合,簡化,均應(yīng)為等效的置換方式,都應(yīng)包含在本發(fā)明的保護范圍內(nèi)。
【權(quán)利要求】
1.一種在音頻中嵌入與檢測數(shù)字信息的方法,其特征在于,包括: 將載體音頻和水印信息分幀,得到分幀的載體音頻和分幀的水印信息; 自所述分幀的載體音頻的每一幀中讀取出每一幀的最大幅度值,計算得到每一幀可嵌入所述水印信息的功率系數(shù); 將所述分幀的載體音頻和分幀的水印信息按幀對齊,對所述分幀的水印信息進行處理,得到幅度處理后的分幀的水印信息; 將所述幅度處理后的分幀的水印信息疊加在所述分幀的載體音頻上,得到最終的輸出音頻。
2.根據(jù)權(quán)利要求1所述一種在音頻中嵌入與檢測數(shù)字信息的方法,其特征在于,對所述分幀的水印信息進行處理的過程包括: 將所述分幀的水印信息的每一幀數(shù)據(jù)的幅度,與相對應(yīng)的載體幀內(nèi)計算得到的所述功率系數(shù)相乘,從而得到所述幅度處理后的分幀的水印信息。
3.根據(jù)權(quán)利要求1所述一種在音頻中嵌入與檢測數(shù)字信息的方法,其特征在于,還包括: 將以二進制數(shù)字表示的需要傳遞的信息進行二進制相移檢控調(diào)制,將調(diào)制后的所述需要傳遞的信息按照載波的采樣率進行保存,得到所述水印信息。
4.根據(jù)權(quán)利要求3所述一種在音頻中嵌入與檢測數(shù)字信息的方法,其特征在于, 所述載波的米樣率不低于44100赫茲,若所述載波的米樣率低于44100赫茲,則對所述載波進行重采樣,將所述載波的采樣率轉(zhuǎn)換為44100赫茲。
5.根據(jù)權(quán)利要求1所述一種在音頻中嵌入與檢測數(shù)字信息的方法,其特征在于, 所述載波的時間長度大于等于所述水印信息的時間長度。
6.根據(jù)權(quán)利要求1所述一種在音頻中嵌入與檢測數(shù)字信息的方法,其特征在于,還包括: 接收端設(shè)備的麥克風采用44100赫茲的采樣率對所述輸出音頻進行錄制,并分為時間長度為I秒的幀。
7.根據(jù)權(quán)利要求6所述一種在音頻中嵌入與檢測數(shù)字信息的方法,其特征在于,還包括: 所述接收端設(shè)備將所述錄制的輸出音頻數(shù)據(jù)與19000赫茲的載頻相乘,完成下變頻;所述接收端設(shè)備對所述下變頻處理后的輸出音頻進行二進制相移檢控解調(diào),得到嵌入的所述水印信息。
8.根據(jù)權(quán)利要求6或7所述一種在音頻中嵌入與檢測數(shù)字信息的方法,其特征在于,所述接收端設(shè)備為智能手機或平板電腦。
【文檔編號】G10L19/018GK104299617SQ201410626999
【公開日】2015年1月21日 申請日期:2014年11月10日 優(yōu)先權(quán)日:2014年11月10日
【發(fā)明者】張立, 陳亮, 康凱 申請人:江蘇夢之音科技有限公司