一種基于沃爾什-哈達(dá)碼變換的音頻實(shí)時(shí)比對(duì)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)字音頻處理技術(shù)領(lǐng)域,涉及一種對(duì)兩音頻信號(hào)進(jìn)行比較的方法,具 體為一種基于沃爾什-哈達(dá)碼變換的音頻實(shí)時(shí)比對(duì)方法,該方法可應(yīng)用于廣播音頻的實(shí)時(shí) 比對(duì)。
【背景技術(shù)】
[0002] 當(dāng)前,音頻廣播已成為最為普及的大眾宣傳和娛樂(lè)媒體。廣播電臺(tái)的節(jié)目播出及 媒體資源管理等都涉及到音頻比對(duì)方面的需求,即對(duì)兩個(gè)音頻進(jìn)行比較,判斷二者是否相 同或相似。例如在節(jié)目監(jiān)播中,需要對(duì)實(shí)際發(fā)射播出的音頻信號(hào)進(jìn)行在線實(shí)時(shí)接收和查詢, 涉及到將接聽到的音頻流與欲播出的原音頻進(jìn)行比對(duì),從而判斷整個(gè)開環(huán)播出通路是否正 常;又如在廣告統(tǒng)計(jì)管理中,也需要對(duì)每日播出記錄與原廣告音頻進(jìn)行比對(duì)查找,統(tǒng)計(jì)各廣 告實(shí)際播出的時(shí)間和次數(shù),從而判斷廣告播出是否存在漏播、多播或錯(cuò)播等情況。
[0003] 音頻比對(duì)一般包括音頻提取特征和特征匹配兩個(gè)環(huán)節(jié)。特征提取是用代表原始信 號(hào)的結(jié)構(gòu)化數(shù)據(jù)來(lái)表達(dá)音頻信號(hào)。常用的音頻特征主要可以分為兩大類:聲學(xué)級(jí)特征和語(yǔ) 義級(jí)特征。聲學(xué)特征是音頻信號(hào)本身的特征(如時(shí)頻域特征),是其它類型音頻特征的基 礎(chǔ)。常用的聲學(xué)特征主要包括梅爾倒譜系數(shù)(MFCC)、基音頻率、短時(shí)能量、過(guò)零率、LPC等 等;語(yǔ)義級(jí)特征則是對(duì)音頻的概念級(jí)描述,它是在聲學(xué)級(jí)特征的基礎(chǔ)上,通過(guò)模型化處理, 抽取出來(lái)的更高級(jí)的感知特征,如音樂(lè)的旋律、音色和敘事感情等等。在提取特征之后,特 征匹配環(huán)節(jié)則是通過(guò)計(jì)算提取的兩音頻特征之間的距離來(lái)判斷兩音頻是否相同或相似。該 過(guò)程相對(duì)簡(jiǎn)單,常用的特征距離有標(biāo)準(zhǔn)歐幾里德距離、曼哈頓距離、漢明距離等等。
[0004] 傳統(tǒng)的音頻比對(duì)方法針對(duì)普通音頻的比對(duì),一般不太適用于廣播音頻,其原因主 要有如下兩個(gè)方面:一方面,在比對(duì)容錯(cuò)性上,眾多音頻特征皆以準(zhǔn)確描述音頻為目標(biāo),追 求高的內(nèi)容辨識(shí)度,故音頻的細(xì)微變化,均能反應(yīng)在特征上。這樣,如果音頻受到噪聲干擾, 或經(jīng)過(guò)一些常規(guī)音效處理,如均衡(EQ)調(diào)節(jié),再將處理后的音頻與原音頻進(jìn)行比較,傳統(tǒng) 比對(duì)方法往往判定兩音頻不相似甚至完全不同,而噪聲干擾、音效處理等在廣播中是很常 見(jiàn)的。如在廣播監(jiān)測(cè)中,我們需要將播出原音頻與接聽到的音頻進(jìn)行比對(duì),而接聽到的音頻 并非如原音頻一般純凈,常常含有噪聲;又如為了達(dá)到更好的播出主觀收聽效果,在廣播發(fā) 射前,通常使用音頻均衡器來(lái)對(duì)播出音頻的頻譜進(jìn)行調(diào)節(jié)。這些處理,使得被處理音頻相對(duì) 于原音頻發(fā)生了較大的變化。在這種情況下,傳統(tǒng)的比對(duì)方法往往不能適用,因?yàn)閺V播音頻 比對(duì)需要判定播出的音頻內(nèi)容本身是否相同,而非聽覺(jué)效果上是否一致,即某音頻即使在 受到一定噪聲干擾、頻譜調(diào)節(jié)等處理后,算法仍應(yīng)該判定該音頻與其原音頻是相似的(或 互為相似音頻)。雖然文獻(xiàn)中也出現(xiàn)了對(duì)音頻變化不敏感的比對(duì)方法,如基于Philips音頻 指紋的比對(duì)方法,但這些方法中,處理前后兩音頻間的距離與真正完全不同的兩音頻間的 距離相差不大,故判別上容易混淆,尤其是在強(qiáng)噪聲干擾或音頻處理的變化幅度較大時(shí),會(huì) 出現(xiàn)判別錯(cuò)誤;另一方面,在比對(duì)的計(jì)算效率上,現(xiàn)有方法的計(jì)算復(fù)雜度相對(duì)較高,比對(duì)所 需的時(shí)間相對(duì)較長(zhǎng),不利于實(shí)時(shí)處理。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于針對(duì)【背景技術(shù)】存在的問(wèn)題,采用新的音頻提取特征和特征匹配 方法,提供一種適合廣播音頻的比對(duì)方法。
[0006] 本發(fā)明采用技術(shù)方案為:一種基于沃爾什-哈達(dá)碼變換的音頻實(shí)時(shí)比對(duì)方法,包 括以下步驟:
[0007]S1.特征提?。簩?duì)待比對(duì)的兩個(gè)音頻,分別進(jìn)行以下操作:
[0008]S11.預(yù)處理:將音頻從原采樣頻率下采樣到fs= 4000Hz,將下采樣后的數(shù)據(jù)按固 定長(zhǎng)度劃分為各音頻幀,相鄰幀間有重疊,其中幀長(zhǎng)L取為2的整數(shù)次方,即L= 2m(m為整 數(shù));將每一幀數(shù)據(jù)排列成一列矢量,并將矢量中各元素除以列矢量中元素絕對(duì)值的最大 值進(jìn)行歸一化,將歸一化處理后的幀數(shù)據(jù)保存在數(shù)據(jù)矩陣A中;設(shè)總的音頻幀數(shù)目為M,則A =[a^a2,a3, . . .,aM],其中A的每一列表示第i幀的數(shù)據(jù);
[0009]S12.讀取音頻幀:取一幀音頻ai;設(shè)定初始值為0的幀計(jì)數(shù)器,每取一音頻幀,幀 計(jì)數(shù)器加1 ;
[0010] S13.沃爾什-哈達(dá)碼(Walsh-Hadamard)變換:對(duì)音頻幀數(shù)據(jù)進(jìn)行加窗處理, 設(shè)Xi代表加窗后第i幀的幀數(shù)據(jù),對(duì)xi進(jìn)行沃爾什-哈達(dá)碼變換,得到變換后的數(shù)據(jù)yi:
[0012] 其中,HL為相應(yīng)的L階變換矩陣;
[0013] S14.計(jì)算音頻幀特征:設(shè)&代表第i幀的音頻幀特征,其維數(shù)(或特征個(gè)數(shù))設(shè) 定為Z,fik代表f i的第k個(gè)元素,對(duì)k = 1,2, 3,. . .,Z的每個(gè)k計(jì)算
[0015] 其中y/代表yi的第j個(gè)元素;b,(r= 0, 1,2,. . .,Z)為劃分幀特征矢量&的第r 個(gè)分界點(diǎn)位置下標(biāo),其計(jì)算公式為
[0017] 其中L*」代表向下取整運(yùn)算;
[0018]S15.若幀計(jì)數(shù)器的當(dāng)前計(jì)數(shù)值小于M,則轉(zhuǎn)至步驟S12;
[0019]S16.生成音頻特征:將各音頻幀的特征矢量排列成一矩陣F= [f\,f2,f3, . . .,fM],該矩陣即為當(dāng)前音頻信號(hào)的特征矩陣;
[0020] S2?特征匹配:
[0021] 設(shè)待比對(duì)的兩個(gè)音頻信號(hào)的特征矩陣分別為F和F,將兩矩陣的對(duì)應(yīng)列(幀)特 征矢量進(jìn)行以下比較:
[0022] S21.設(shè)&和^分別表示第一個(gè)和第二個(gè)音頻的第i幀特征矢量,計(jì)算參數(shù)yi
[0024]其中 < 代表f?和f二者中值較大者,#代表f?和7T二者中值較小者,M100 < 140)為設(shè)定某閾值,b〇〇l( ?)為二值函數(shù),其定義為
[0026] S22?對(duì)i從1到M,計(jì)算第i幀的距離di:
[0028] 其中運(yùn)算符< ?,? >為矢量的內(nèi)積,| | ? | |2為矢量的2范數(shù),即矢量各元素平方 和再開方;
[0029]S23.將待比對(duì)兩個(gè)音頻的所有幀的距離進(jìn)行平均,將該平均值作為兩音頻信號(hào)的 距離;
[0030]S3.相似度判定:將求得的待比對(duì)兩個(gè)音頻信號(hào)距離除以單位距離得到相對(duì)距離 比,若該距離比小于設(shè)定的閾值Td(0. 2 <Td< 0. 5),則判定兩個(gè)音頻信號(hào)相似,否則不相 似。
[0031] 本發(fā)明的有益效果:本發(fā)明提供一種音頻實(shí)時(shí)比對(duì)方法,該方法具有較高的比對(duì) 容錯(cuò)性,在音頻受到噪聲干擾,或進(jìn)行了音效處理的等情況下均能實(shí)現(xiàn)正確的比對(duì);同時(shí), 該方法算法簡(jiǎn)單、處理快速,能夠廣泛應(yīng)用于廣播電臺(tái)的節(jié)目監(jiān)播、廣告監(jiān)測(cè)和管理等。
【附圖說(shuō)明】:
[0032] 圖1為EQ處理均衡器設(shè)置圖。其中,(a)為流行風(fēng)格均衡器設(shè)置、(b)為搖滾風(fēng)格 均衡器設(shè)置、(c)為經(jīng)典風(fēng)格均衡器設(shè)置。
[0033] 圖2為特征提取過(guò)程流程圖。
[0034] 圖3為音頻比對(duì)流程圖。
【具體實(shí)施方式】
[0035] 仿真實(shí)驗(yàn)共選擇了 16個(gè)音頻作為測(cè)試音頻。其中前6個(gè)音頻為未經(jīng)處理的原廣 播音頻,均為單聲道,48k采樣率,包含廣告、樂(lè)曲和歌曲各兩個(gè),其具體信息如表1描述;后 10個(gè)音頻對(duì)歌曲1作均衡(EQ)、壓縮、加噪等處理得到的音頻,其音頻具體信息如表2描 述,EQ處理的均衡器設(shè)置如圖1所示。
[0036] 表1原測(cè)試音頻信息
[0038] 表2歌曲1處理后的各音頻信息
[0041] 本實(shí)施例以"歌曲1"與對(duì)其加入高斯白噪聲(信噪比為_5db)處理后的"歌曲 1-SNR-5 "這對(duì)音頻為例,對(duì)其進(jìn)行比對(duì),具體步驟如下:
[0042] S1.特征提?。簩?duì)待比對(duì)的兩個(gè)音頻,分別進(jìn)行如下操作:
[0043] S11.預(yù)處理:將音頻從原采樣頻率下采樣到fs= 4000Hz,將下采樣后的數(shù) 據(jù)按256個(gè)采樣點(diǎn)的長(zhǎng)度等分為各音頻幀,相鄰幀間有半幀長(zhǎng)度的重疊,總的音頻幀 數(shù)目M為935 ;將每一幀數(shù)據(jù)排列成一列矢量,并將矢量中各元素除以列矢量中元素絕 對(duì)值的最大值進(jìn)行歸一化,將歸一化處理后的幀數(shù)據(jù)保存在數(shù)據(jù)矩陣A中;設(shè),則A= [a^a2,a3, ? ? ?,a935],其中A的每一列不第i幀的數(shù)據(jù);
[0044] S12.讀取音頻幀:取一幀音頻ai;設(shè)定初始值為0的幀計(jì)數(shù)器,每取一音頻幀,幀 計(jì)數(shù)器加1 ;
[0045] S13.沃爾什-哈達(dá)碼(Walsh-Hadamard)變換:對(duì)音頻幀ai的數(shù)據(jù)進(jìn)行加漢明窗 處理,設(shè)Xi代表加窗后第i幀的幀數(shù)據(jù),對(duì)X1進(jìn)行哈達(dá)碼變換,得到變換后的數(shù)據(jù)yi:
[0047] 其中,H256為256階哈達(dá)碼矩陣,可由如下的遞推關(guān)系得到:最低階(2階)的哈達(dá) 瑪矩陣為
[0049]由此可得到其他階次為2的整次冪的高階哈達(dá)瑪矩陣
[0051] 式中,N= 2n,n為正整數(shù)。
[0052] S14.計(jì)算音頻幀特征:設(shè)&代表第i幀的音頻幀特征,其維數(shù)(或特征個(gè)數(shù))設(shè) 定為Z = 10, fik代表f i的第k個(gè)元素,對(duì)k = 1,2, 3,. . .,10的每個(gè)k計(jì)算
[0054]其中y〖代表yi的第j個(gè)元素;bJr= 0, 1,2, ? ?