專利名稱:一種音頻比較方法
技術(shù)領(lǐng)域:
本發(fā)明涉及ー種音頻比較方法,屬于計(jì)算機(jī)音頻、多媒體信息技術(shù)以及模式匹配等領(lǐng)域,特別涉及一種在音頻數(shù)據(jù)庫中基于能量信息提取特征的兩段音頻數(shù)據(jù)的快速比較。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)的發(fā)展,特別是海量存儲(chǔ)設(shè)備和大容量內(nèi)存在PC機(jī)上的實(shí)現(xiàn),對(duì)音頻媒體進(jìn)行數(shù)字化處理便成為可能。數(shù)字化處理的核心是對(duì)音頻信息的采樣,通過對(duì)采集到的樣本進(jìn)行加工,達(dá)成各種效果,這是音頻媒體數(shù)字化處理的基本含義。為了檢查處理過后的音頻文件和原始文件之間有哪些區(qū)別,如何快速、準(zhǔn)確地從兩段音頻中找到相同和不同之處是影視后期編輯中最基本也是最重要的問題之一。解決這個(gè)問題的有效手段便是音頻比較技術(shù)。常用的音頻技術(shù)主要可分為基于采樣數(shù)據(jù)的和基于音頻內(nèi)容的ニ種。其中,·基于采樣數(shù)據(jù)的音頻比較技術(shù)通常通過直接在比較兩段音頻的每個(gè)采樣點(diǎn)來實(shí)現(xiàn)。這種技術(shù)存在兩個(gè)明顯不足首先,音頻采樣點(diǎn)數(shù)據(jù)的海量性決定了對(duì)于兩段較長的音頻文件逐點(diǎn)比較這樣的問題是NP的,不可能很快的得出結(jié)果,沒有現(xiàn)實(shí)性的意義。其次,基于逐點(diǎn)比較的方法會(huì)使音頻中存在大量的破碎段落,使得比較的結(jié)果過于零碎,不能提供直觀可見的結(jié)果?;谝纛l內(nèi)容的音頻比較技術(shù)主要是對(duì)音頻本身的各種特征進(jìn)行分析和比較的技木。目前常用的音頻特征有波形、音質(zhì)和MFCC等。但基于波形的比較方法過于依賴波形圖的擬合方程,使得比較結(jié)果的存在很大誤差。而基于的音質(zhì)方法存在音質(zhì)標(biāo)準(zhǔn)和接受器材約束的問題,使得比較的精度和效率也都不夠好。基于MFCC特征的方法由于需要將音頻按照語句劃分出來,無法大規(guī)??焖龠M(jìn)行。還有些音頻比較方法采用了半監(jiān)瞀的反饋技木,通過與用戶的交互來改善比較的結(jié)果,直到用戶滿意。這種方法通常會(huì)給用戶帶來較大的負(fù)擔(dān)和時(shí)間開銷。
發(fā)明內(nèi)容
發(fā)明目的本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,并且為影視后期制作公司提供一個(gè)新的解決方案,提供ー種音頻比較方法。技術(shù)方案本發(fā)明公開了ー種音頻方法,所述音頻快速比較部分包括以下步驟步驟1,將待比較的音頻p和音頻q,分別按照其音頻的長度劃分出長度相等的兩組音頻數(shù)據(jù)特征段,其中音頻P劃分為特征段集合Cp, Cp=Icp1, CPfCP^HCPuJ ,音頻q劃分為特征段集合Cq, Cq=Icq1, cq^“ cq/“ cqu},其中Cpi表示特征段集合Cp中第i個(gè)音頻數(shù)據(jù)特征段,I ^ i ^ Lp, Lp為特征段集合Cp的長度,Cqj特征段集合Cq中第j個(gè)音頻數(shù)據(jù)特征段,Lq, Lq為特征段集合Cq的長度,因?yàn)橐纛l是無損音頻,所以其毎秒采樣值數(shù)目比較大,通常都為每秒48000個(gè)采樣點(diǎn)(即特征點(diǎn)),如音頻p有8000個(gè)采樣數(shù)據(jù),音頻q有6000個(gè)采樣數(shù)據(jù),則將p,q劃分成長度為100個(gè)采樣點(diǎn)的音頻數(shù)據(jù)特征段,則音頻P有80個(gè)音頻數(shù)據(jù)特征段,每個(gè)音頻數(shù)據(jù)段有100個(gè)特征點(diǎn),音頻q有60個(gè)音頻數(shù)據(jù)特征段,每個(gè)音頻數(shù)據(jù)特征段有100個(gè)特征點(diǎn);步驟2,利用CUDA (通用計(jì)算架構(gòu))方法,將音頻P的特征段集合Cp和音頻q的特征段集合Cq中姆個(gè)特征段中的音頻數(shù)據(jù)導(dǎo)入到GPlXGraphic Processing Unit,圖形處理器,)上并行計(jì)算,得到音頻P的特征段集合Cp的能量特征值序列Wp和音頻q的特征段集合Cq的能量特征值序列Wq ;步驟3,將音頻p的能量特征值序列Wp和音頻q能量特征值序列Wq通過差值方法構(gòu)建出ー個(gè) Lp 行 Lq 列能量矩陣 Mat,其中 Wp={wp1; wp2*** Wpi--tWpLpI, Wq= (Wq1, wq2*** Wqj---wqLq},即將能量特征值序列Wp中Wp1作為與Wq=Iwq1, Wq2--Wqj---wqLq}中的姆ー個(gè)能量特征值做差值后作為一行,同理為wp2,wp3-wqLq中的每ー個(gè)能量特征值都做差值得到對(duì)應(yīng)行,組合后即得到Lp行Lq列能量矩陣Mat。能量矩陣Mat可以采用如下所示矩陣結(jié)構(gòu)
權(quán)利要求
1.ー種音頻比較方法,其特征在于包括以下步驟 步驟1,將待比較的音頻P和音頻q,分別按照其音頻的長度劃分出長度相等的兩組音頻數(shù)據(jù)特征段,其中音頻P劃分為特征段集合Cp, Cp=Icp1, CPfCP^HCPuJ ,音頻q劃分為特征段集合Cq, Cq=Icq1, cq^“ cq/“ cqu},其中Cpi表示特征段集合Cp中第i個(gè)音頻數(shù)據(jù)特征段,I < i < Lp, Lp為特征段集合Cp的長度,Cqj特征段集合Cq中第j個(gè)音頻數(shù)據(jù)特征段,I ^ j ^ Lq, Lq為特征段集合Cq的長度; 步驟2,將音頻p的特征段集合Cp和音頻q的特征段集合Cq中每個(gè)特征段中的音頻數(shù)據(jù)導(dǎo)入到GPU上并行計(jì)算,得到音頻P的特征段集合Cp的能量特征值序列Wp和音頻q的特征段集合Cq的能量特征值序列Wq ; 步驟3,將音頻p的能量特征值序列Wp和音頻q能量特征值序列Wq通過差值方法構(gòu)建出ー個(gè)Lp行Lq列能量矩陣Mat ; 步驟4,利用變形的后綴數(shù)組查找公共子串算法,查找出步驟3中所得的能量特征值序列Wp和能量特征值序列Wq中的公共部分,公共部分即是音頻P和音頻q相同區(qū)域段落的集合Seg ; 步驟5,將能量矩陣Mat中元素?cái)?shù)值小于設(shè)定閾值的區(qū)域連通,得到連通區(qū)域集合Vres,閾值取值范圍為0 1的實(shí)數(shù); 步驟6,將步驟5中所得的連通區(qū)域集合Vres作為結(jié)果,用波形表示; 步驟7,結(jié)束。
2.根據(jù)權(quán)利要求I所述的ー種音頻比較方法,其特征在于,步驟2中,在GPU上使用CUDA方法計(jì)算音頻數(shù)據(jù)特征段CPi的能量特征值WPi和音頻數(shù)據(jù)特征段cq^的能量特征值wqj;并將能量特征值Wpi和能量特征值Wqj分布到GPU的線程上 能量特征值Wpi的計(jì)算方法如下
3.根據(jù)權(quán)利要求I所述的ー種音頻比較方法,其特征在于,步驟4中,利用變形的后綴數(shù)組查找公共子串的算法,算法中查找的時(shí)間復(fù)雜度為O(nlgn),將音頻數(shù)據(jù)特征段的能量特征值作為變形的后綴數(shù)組查找公共子串的算法的字符串中的一個(gè)字符,得到若干段長度大于k的字符串,k為設(shè)定的最小區(qū)別長度,將字符串對(duì)應(yīng)的位置轉(zhuǎn)換為音頻數(shù)據(jù)特征段的位置,得出比較結(jié)果。
4.根據(jù)權(quán)利要求2所述的ー種音頻比較方法,其特征在于,步驟5中,相同連通區(qū)域的判定標(biāo)準(zhǔn)為音頻數(shù)據(jù)特征段的能量特征值同時(shí)滿足以下兩個(gè)條件,則音頻P的能量特征值序列Wp和音頻q能量特征值序列Wq中第S、s+1、s+2三段數(shù)據(jù)是相同的并且可連通條件 I wp(s)=wq(s)且 wp(s+2)=wq(s+2);條件 2 wp(s+1)=wq(s+1)或者 wp(s+1) — wq(s+1) | 彡 T, T 為閾值; 其中wp(s)是音頻p的能量特征值序列Wp的第S、s+1、s+2段數(shù)據(jù),其中wq(s)是音頻q的能量特征值序列Wq的第S、s+1、s+2段數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種快速音頻比較的方法,其所述音頻比較部分包括以下步驟讀取音頻p和音頻q,劃分出音頻p的特征段集合Cp和音頻q的特征段集合Cq;利用GPU(顯示卡)上CUDA(通用設(shè)備計(jì)算架構(gòu))功能快速的計(jì)算出音頻p的特征段集合Cp的能量特征值序列Wp和音頻q的特征段集合Cq的能量特征值序列Wq;將各個(gè)特征段的特征值按照特征段的順序構(gòu)成能量矩陣;利用后綴數(shù)組的變形算法找出兩個(gè)特征值序列的公共特征段集合Seg;快速掃描公共特征段集合Seg,找出連通區(qū)域,返回連通區(qū)域的集合Vres作為音頻比較的結(jié)果;在波形圖上標(biāo)識(shí)比較結(jié)果。
文檔編號(hào)G06F17/30GK102789500SQ20121024678
公開日2012年11月21日 申請(qǐng)日期2012年7月17日 優(yōu)先權(quán)日2012年7月17日
發(fā)明者余宗喬, 董萱明, 蔣安東, 郭延文, 金國平, 顧學(xué)明 申請(qǐng)人:南京特雷多信息科技有限公司