專利名稱::一種基于Zernike矩的壓縮域音頻指紋方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于基于內(nèi)容的音樂(lè)檢索
技術(shù)領(lǐng)域:
,具體涉及一種基于熵的壓縮域音頻信息識(shí)別的方法。
背景技術(shù):
:音頻指紋是指基于內(nèi)容的引用檢索
技術(shù)領(lǐng)域:
中,可以代表一段音樂(lè)重要聲學(xué)特征的基于內(nèi)容的緊致的數(shù)字簽名,其主要目的是建立一種有效的機(jī)制來(lái)比較兩個(gè)音頻數(shù)據(jù)的感知聽(tīng)覺(jué)質(zhì)量的相似程度,使人們可以僅僅通過(guò)一個(gè)沒(méi)有任何文本標(biāo)記的音頻片段,便可得到和該音頻片段相關(guān)的元數(shù)據(jù),如音頻的名字。這里不是直接比較通常很大的音頻數(shù)據(jù)本身,而是比較其相應(yīng)通常較小的數(shù)字指紋。大量音頻數(shù)據(jù)的指紋和其相應(yīng)的元數(shù)據(jù)比如歌曲名稱、詞曲作者、歌詞等內(nèi)容一起存儲(chǔ)在一個(gè)數(shù)據(jù)庫(kù)中,并采用指紋作為相應(yīng)元數(shù)據(jù)的索引。音頻指紋有著較多好處,具體來(lái)說(shuō)。首先因?yàn)橹讣y占用的存儲(chǔ)空間遠(yuǎn)遠(yuǎn)小于音頻數(shù)據(jù)本身,這樣可以節(jié)省很多的計(jì)算和內(nèi)存要求。其次指紋往往保留了音頻數(shù)據(jù)在聽(tīng)覺(jué)感知上的一些不變特性,因此能夠在音頻遭受了信號(hào)攻擊后,數(shù)據(jù)本身遭到破壞,而感知特性變化較小時(shí),依然可以進(jìn)行有效比對(duì)。最后,保持指紋的數(shù)據(jù)庫(kù)往往遠(yuǎn)小于媒體數(shù)據(jù)庫(kù),這樣可以進(jìn)行高效的搜索。音頻指紋現(xiàn)在已經(jīng)有著很多發(fā)展較為明朗的商業(yè)應(yīng)用場(chǎng)景,大致有如下幾類第一,指紋用于音頻的識(shí)別。例如音樂(lè)的識(shí)別。用戶在即使嘈雜的環(huán)境,例如酒吧或者公路上,用手機(jī)錄下的一些自己不知元數(shù)據(jù)的歌曲片段,通過(guò)手機(jī)發(fā)送到服務(wù)器端,而得到未知片段的詳細(xì)的元數(shù)據(jù),如歌曲名字,專輯名字,購(gòu)買地址,或者更為直接的讓服務(wù)商把該完整音樂(lè)發(fā)送到自己的手機(jī)上。音頻的識(shí)別可以用來(lái)對(duì)音頻的內(nèi)容控制和跟蹤。音樂(lè)電臺(tái)可以通過(guò)音頻指紋來(lái)確定自己是否擁有某個(gè)音頻的播放權(quán);而版權(quán)所有者可以通過(guò)音頻指紋監(jiān)視電臺(tái)是否已支付版權(quán)費(fèi),并進(jìn)行播放統(tǒng)計(jì);廣告商則可以監(jiān)視電臺(tái)是否按協(xié)議播放自己的廣告。音樂(lè)的版權(quán)擁有者,可以通過(guò)指紋來(lái)控制CD、DVD、MP3播放器等電子設(shè)備的行為,使消費(fèi)者不能夠播放盜版或者未付版權(quán)費(fèi)的電子音頻。音頻的識(shí)別可以用在增值服務(wù)。在音頻指紋的幫助下,不同用戶將得到自己感興趣的元信息。例如,普通用戶可能對(duì)一般信息如歌詞、歌曲名稱、詞曲作者、專輯年份、演唱者等感興趣;音樂(lè)家可能想知道樂(lè)器如何演奏以及節(jié)奏、旋律、和聲;而錄音師可能對(duì)錄音過(guò)程感興趣。元信息可以按照不同目的組織存儲(chǔ),使用指紋技術(shù)進(jìn)行正確的檢索來(lái)得到用戶感興趣的信息。第二,音頻指紋可以用在內(nèi)容完整性校驗(yàn),其目的在于檢測(cè)惡意操作對(duì)音頻數(shù)據(jù)的改變。第三,音頻指紋可以用作音頻水印技術(shù)的輔助手段。第四,音頻指紋還可以作為音頻信息檢索的基礎(chǔ)為音頻檢索和音頻處理服務(wù)當(dāng)前,已提出的音頻指紋算法主要有文獻(xiàn)[1],作者將音頻信號(hào)首先被分割為0.37秒的幀,相互之間有1/32的跳距,使用Hamming窗平滑幀邊緣。每幀提取的32位特征叫做子指紋,由于相鄰幀之間有很大的重疊,相鄰子指紋也具有很大的相似性并且隨時(shí)間緩慢變化。為計(jì)算每幀的32比特子指紋,從估計(jì)的功率譜密度中選取33個(gè)非重疊的頻帶,其最終的數(shù)字指紋是相鄰子帶(分別在時(shí)間軸和頻率軸上)差分結(jié)果的符號(hào)。文獻(xiàn)[2]則在文獻(xiàn)[1]的基礎(chǔ)自上進(jìn)行了改進(jìn),用子帶的熵替換了子帶能量作為中間特征。但是以上兩種方法都是非壓縮域的算法。文獻(xiàn)[3]利用MP3解碼過(guò)程的多想濾波后的系數(shù)作為原始數(shù)據(jù),直接用子帶能量作為特征來(lái)為歌曲每個(gè)片段的索引,進(jìn)而檢索歌曲。正如作者所說(shuō),他是第一個(gè)壓縮域識(shí)別算法。在用理想的數(shù)據(jù)建立的很小的數(shù)據(jù)集上,使用未受任何攻擊的音頻片段檢索,得到78%召回率和32%的準(zhǔn)確率。文獻(xiàn)[4]直接利用MDCT系數(shù)和子帶能量來(lái)表征一段人聲的聲學(xué)特性,進(jìn)而作為匹配片段時(shí)的特征。試驗(yàn)在數(shù)據(jù)容量114個(gè)的數(shù)據(jù)庫(kù)上利用清唱片段檢索,得到前5位結(jié)果76%的準(zhǔn)確率。文獻(xiàn)[5]提出的算法,首先將MP3數(shù)據(jù)流分塊,在每塊內(nèi)利用MDCT系數(shù)計(jì)算了頻譜能量,進(jìn)而將頻譜能量通過(guò)量化樹(shù),建立了這塊音頻的索引。為了彌補(bǔ)將其他格式的音頻轉(zhuǎn)換到MP3帶來(lái)的準(zhǔn)確率,再次利用頻譜能量建立模擬旋律的能量包絡(luò)串“UD”串,子母“U”代表當(dāng)前12幀的譜能量大于前面12幀的譜能量,反之則用“D”表示。算法在包含某位歌手的176首數(shù)歌曲的數(shù)據(jù)上,利用從數(shù)據(jù)庫(kù)中歌曲任意截取的片段作為檢索片段,分別得到了前4位檢索結(jié)果74%的正確率和前5位檢索結(jié)果90%的正確率。該方法沒(méi)有考慮到片段檢索和可能的信號(hào)處理。文獻(xiàn)[6]設(shè)計(jì)了一種壓縮域內(nèi)魯棒的音頻指紋算法。該算法首先對(duì)MP3的數(shù)據(jù)幀進(jìn)行了帶有重疊的分塊,在每一個(gè)塊內(nèi)劃分子帶。計(jì)算每個(gè)子帶能量和整個(gè)塊的能量的比值作為“內(nèi)特征”,計(jì)算相鄰塊的同子帶的“內(nèi)特征”的差異做外特征值,最終作為歌曲的指紋。分析實(shí)驗(yàn)展示該算法對(duì)于下采樣,回聲,均衡化等攻擊具有魯棒性,可是該文沒(méi)能給出檢索的結(jié)果。
發(fā)明內(nèi)容本發(fā)明的目的在于提出音頻壓縮域(MP3)魯棒的音頻指紋方法。本發(fā)明提出的音頻壓縮域指紋方法,是基于Zernike矩的指紋方法。本發(fā)明方法巧妙地結(jié)合了MP3壓縮域數(shù)據(jù)的MDCT系數(shù)和Zernike矩的一些特性低階矩代表信號(hào)的整體特性,高階矩代表信號(hào)細(xì)節(jié)特性;Zernike矩有著旋轉(zhuǎn),縮放和平移的不變性特性。使最終構(gòu)成的音頻壓縮域指紋方法有較強(qiáng)的魯棒性。本發(fā)明的步驟包括指紋構(gòu)造過(guò)程和檢索過(guò)程,如圖1所示。具體的指紋構(gòu)造步驟如下步驟1使用支持MP3的定點(diǎn)數(shù)解碼器“l(fā)ibmad”提取修正余弦變換系數(shù)(MDCT系數(shù))。因?yàn)樵贛P3變換中可以提取MDCT系數(shù)的地方為“逆量化”與“IMDCT”之間,見(jiàn)圖2。我們?cè)凇澳媪炕敝?,在“重排序”之前提取MDCT系數(shù)。步驟2對(duì)齊頻率分辨率。因?yàn)樵贛P3的一節(jié)(granule)包含了576個(gè)MDCT系數(shù),但是,他們?cè)诰幋a過(guò)程中可能使用了長(zhǎng)窗口或者短窗口,使用長(zhǎng)窗口的一個(gè)節(jié)中的576個(gè)MDCT系數(shù)代表的頻率為OHZ到采樣頻率一半,而使用短窗口的一個(gè)節(jié)中包含了MDCT系數(shù)是在時(shí)間域上代表著三份,而每一份只有192個(gè)MDCT系數(shù),也就是說(shuō)短窗口的192個(gè)MDCT系數(shù)代表的頻率為OHz到采樣頻率的一半,具體分布如圖3所示。因此,為了將使用長(zhǎng)短窗口的MDCT系數(shù)所代表的頻率一致化,需要將長(zhǎng)窗口的每3個(gè)MDCT系數(shù)聚集成一個(gè)新的系數(shù),最終形成新的192個(gè)系數(shù),而短窗口的在同一頻率上的三個(gè)MDCT系數(shù)也聚成一個(gè)新的系數(shù),這樣長(zhǎng)短窗口的192系數(shù)將會(huì)保持一致的時(shí)間和頻率分析度。具體公式如下SiiCi0=E^Lgi-zIsC^ra)!I=1,2,...192,]=1,2...m(1)(2)其中,記第mth節(jié)的第IithMDCT系數(shù)為bys(η,m).,sn(i,j)代表ith第jth節(jié)的新得到的MDCT系數(shù)值,我們稱之為“偽像素值”。步驟3構(gòu)造MDCT系數(shù)“偽圖片”,如圖4所示,具體方法是將步驟2中生成的“偽像素值”作為輸入數(shù)據(jù),成為計(jì)算Zernike矩的輸入數(shù)據(jù)。計(jì)算Zernike矩時(shí),需要數(shù)據(jù)的為N*N的二維形式。第一個(gè)N在我們“偽像素值”中代表的頻率,第二個(gè)N代表的是節(jié)(granule)的個(gè)數(shù)。因?yàn)榇眍l率的N在試驗(yàn)中是一個(gè)相對(duì)固定的區(qū)間,最大可以到192,而后面一個(gè)N往往可以在比這個(gè)更大的區(qū)間取值。在頻率方向?qū)⑷〉?到第51個(gè)“偽像素值”,即N為50,作進(jìn)一步的處理。這些被選中的“偽像素值”所代表的頻率范圍為174Hz到6610Hz。構(gòu)造過(guò)程的數(shù)學(xué)表達(dá)式見(jiàn)公式(3),其中?(1,7)即為新生成的偽象素點(diǎn)。ρ(x,y)=sn(x+l,y)x=2,3...N+l,y=1,2...N(3)步驟4將含有較多節(jié)(granule)的壓縮域數(shù)據(jù)分成具有重疊的塊。塊的大小為步驟3中的N的大小。相鄰塊之間有著2節(jié)的跳矩,也就是說(shuō)有著2/N的重疊率。步驟5使用公式(4)計(jì)算每一塊的0-2節(jié)Zernike矩,而),其中V·(x,y)=V·(ρ,θ)=Rnm(ρ)·exp(jmθ),W而。其中η為可正整數(shù)或者零,m則為或正或負(fù)的整數(shù),且m和η需要滿足(n-|m|)為偶數(shù)的條件。P是從原點(diǎn)到點(diǎn)(x,y)矢量的長(zhǎng)度,θ是矢量ρ和χ軸正向之間沿著逆時(shí)針?lè)较虻膴A角。f(x,y)為原始的二維信號(hào),步驟6對(duì)于每塊“偽圖片”,將步驟5中得到0-2階Zernike矩的絕對(duì)值相加作為壓縮域音頻的中間特征E(i),i為第i個(gè)塊。如公式(5)步驟7指紋模型化。依據(jù)公式(6)計(jì)算相鄰跨塊之間指紋的符號(hào)差異,作為最終的存儲(chǔ)數(shù)據(jù)。(6)其中Nsl。t為塊的個(gè)數(shù)。具體的匹配過(guò)程步驟在匹配過(guò)程中,將依據(jù)相同的指紋構(gòu)造方法計(jì)算出待識(shí)別片段的指紋,與數(shù)據(jù)庫(kù)中的所有指紋進(jìn)行窮舉比對(duì),如圖5。因?yàn)槭褂?/1串作為最后的指紋存儲(chǔ)形式,那么,將依據(jù)漢明距離作為距離的測(cè)量標(biāo)準(zhǔn),誤碼率(BER)作為最終評(píng)判標(biāo)準(zhǔn)。比對(duì)過(guò)程具體如下設(shè)Ns。ng代表數(shù)據(jù)庫(kù)歌曲的總數(shù)量,則其中第k首歌曲的指紋可表示為,檢索片段的指紋記為通常η<<Ν,分別指待識(shí)別片段和完整歌曲被劃分的塊數(shù)。采用誤碼率(漢明距離/n)作為衡量?jī)蓚€(gè)指紋序列之間的相似性的度量標(biāo)準(zhǔn),使X°在Xk中滑動(dòng)(如圖所示),窮舉搜索產(chǎn)生的最小誤碼率BER(k)及對(duì)應(yīng)的位置POS(k)。對(duì)所有的歌曲如此搜索后,將得到的全部BER(·)進(jìn)行遞增排序并分別計(jì)算首位、前五位、前十位命中率。并且對(duì)于首位的BER應(yīng)該小于一個(gè)給定的BER閾值,作為音頻識(shí)別的結(jié)果(是或者否的結(jié)果),同時(shí)提供首位的實(shí)驗(yàn)誤檢率。而對(duì)于前五位,和前十位,我們給出的是檢索結(jié)果。詳見(jiàn)下邊的算法說(shuō)明。設(shè)待識(shí)別片段對(duì)應(yīng)的原始歌曲的編號(hào)為k°輸入待識(shí)別片段的指紋,指紋數(shù)據(jù)庫(kù)fork=1:Nsongforj=1,2,···,N-n+1POS(k)=jendresortBER(k)incrementallytoBER'(k')k'=index(k)endk'=Ik=index-1(k')ifk==k0andBER'(k')彡BERthresholdtopihit,return(k,POS(k))endfork'=2:5k=index-1(k')ifk==k0andBER'(k')彡BERthresholdtop5hit,return(k,POS(k))endendfork'=6:10k=index-1(k')ifk==k0andBER'(k')彡BERthresholdtoplOhit,return(k,POS(k))endend以上算法對(duì)一個(gè)給定片段總的匹配次數(shù)為(N-n+1)XNsong,運(yùn)算復(fù)雜度為0(Nsong),N和η均為有限大小,主要由音樂(lè)數(shù)據(jù)庫(kù)的大小Nsong決定。BER閾值的確定例如對(duì)于待識(shí)別片段的指紋和存儲(chǔ)在數(shù)據(jù)庫(kù)中對(duì)應(yīng)的片段指紋,如果他們之間的BER小于α,那么我們將認(rèn)為他們是匹配的。具體做法如下,我們將一段未遭受任何處理的待識(shí)別片段和其遭受各種不同處理的片段到數(shù)據(jù)庫(kù)中進(jìn)行窮舉匹配,并且記下在所有匹配位處的BER。對(duì)于一個(gè)給定α,我們統(tǒng)計(jì)那些錯(cuò)誤匹配的個(gè)數(shù)來(lái)最終計(jì)算誤檢率(FPR)。圖1基于指紋的音頻識(shí)別框架圖。圖2:ΜΡ3解碼過(guò)程示意圖。圖3使用長(zhǎng)短窗口節(jié)中MDCT系數(shù)分布示意圖。圖4使用“偽像素”夠著“偽圖片”。圖5待識(shí)別音頻指紋在數(shù)據(jù)庫(kù)某首歌曲指紋中滑動(dòng)比較示意圖。圖6實(shí)施例中各種處理下的檢索結(jié)果圖示。具體實(shí)施例方式為了驗(yàn)證上述方法的有效性,本發(fā)明進(jìn)行了如下的實(shí)驗(yàn)。首先建立包含了1182首中文流行歌曲歌曲的數(shù)據(jù)庫(kù),并按照上述方法構(gòu)造指紋。每一首歌曲參數(shù)設(shè)置為單聲道,30S長(zhǎng),采樣率為44.ΙΚΗζ,碼率為64Kbps,大致有1141Bits的指紋。為了在指紋的粒度,魯棒性和檢索效率之間有個(gè)較好的折中,我們使用100首5S長(zhǎng)的待識(shí)別片段去測(cè)試,而每一首將遭受到較多的信號(hào)處理。對(duì)于BER的確定,我們選取了一首歌曲及其15種受到處理的版本,按照上述方法取得了在特定BER閾值的情況下對(duì)應(yīng)的FPR。如表1所示表1.PR及其對(duì)應(yīng)的BER閾值當(dāng)我們選定BER閾值為0.32時(shí)候,我們的誤檢率為2.7668e_006,這個(gè)在實(shí)際中是可以接受的。檢索結(jié)果見(jiàn)圖6所示,圖中給出了原始音樂(lè)在收到加回聲,加噪音,帶通,MP3壓縮,變調(diào),變音量,時(shí)間尺度伸縮等信號(hào)處理下的識(shí)別結(jié)果。top-Ι表示在對(duì)應(yīng)的閾值下首位識(shí)別的結(jié)果,top-5,top-10分別表示在前5位和前10位的識(shí)別率。參考資料[1]J.HaitsmaandΤ.Kalker,“Ahighlyrobustaudiofingerprintingsystem,"proceedingoftheinternationalconferenceonmusicinformationretrieval(ISMIR2002),pp.107-115.[2]A.C.IbarrolaandE.Chavez,"Arobustentropy-basedaudio-fingerprint,〃proceedingoftheIEEEinternationalconferenceonmultimediaandexpo(ICME2006),pp.1729-1732.[3]C.C.LiuandP.J.Tsai,”Content-basedretrievalofMP3musicobjects,“proceedingoftheACMinternationalconferenceoninformationandknowledgemanagement2001,pp.506—511[4]W.N.LieandC.K.Su,“Content-basedretrievalofMP3songsbasedonquerybysinging,“proceedingoftheIEEEinternationalconferenceonacoustics,speech,andsignalprocessing(ICASSP2004),pp.929-932.[5]T.H.TsaiandJ.H.Hung,〃Content-basedretrievalofMP3songsforonesingerusingquantizationtreeindexingandmelody-linetrackingmethod,“proceedingoftheIEEEinternationalconferenceonacoustics,speech,andsignalprocessing(ICASSP2006),pp.505-508[6]Y.H.Jiao,B.Yang,M.Y.LiandX.M.Niu,“MDCT-basedperceptualhashingforcompressedaudiocontentidentification,“proceedingoftheIEEEworkshoponmultimediasignalprocessing(MSP2007),pp.381—384.。權(quán)利要求一種基于Zernike矩的壓縮域音頻指紋方法,其特征在于指紋構(gòu)造的具體步驟如下步驟1,使用支持MP3的定點(diǎn)數(shù)解碼器“l(fā)ibmad”提取修正余弦變換系數(shù),記為MDCT系數(shù);步驟2,對(duì)齊頻率分辨率由于在MP3的一節(jié)包含576個(gè)MDCT系數(shù),并且在編碼過(guò)程中使用長(zhǎng)窗口或者短窗口,為了將使用長(zhǎng)短窗口的MDCT系數(shù)所代表的頻率一致化,將長(zhǎng)窗口的每3個(gè)MDCT系數(shù)聚集成一個(gè)新的系數(shù),最終形成新的192個(gè)系數(shù),而短窗口的在同一頻率上的三個(gè)MDCT系數(shù)也聚成一個(gè)新的系數(shù),使長(zhǎng)短窗口的192系數(shù)保持一致的時(shí)間和頻率分析度,具體公式如下<mrow><mi>sn</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><msubsup><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><mn>3</mn><mi>i</mi><mo>-</mo><mn>2</mn></mrow><mrow><mn>3</mn><mi>i</mi></mrow></msubsup><mo>|</mo><mi>s</mi><mrow><mo>(</mo><mi>n</mi><mo>,</mo><mi>m</mi><mo>)</mo></mrow><mo>|</mo><mi>i</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mn>192</mn><mo>,</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>.</mo><mo>.</mo><mo>.</mo><mi>m</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>sn</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>sn</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mrow><mn>3</mn></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>其中,s(n,m)為第mth節(jié)的第nthMDCT系數(shù),sn(i,j)代表ith第jth節(jié)的新得到的MDCT系數(shù)值,稱之為“偽像素值”;步驟3,構(gòu)造MDCT系數(shù)“偽圖片”將步驟2中生成的“偽像素值”作為計(jì)算Zernike矩的輸入數(shù)據(jù);計(jì)算Zernike矩時(shí),需要數(shù)據(jù)的形式為N*N的二維形式,第一個(gè)N在所述“偽像素值”中代表頻率,第二個(gè)N代表節(jié)的個(gè)數(shù);代表頻率的N是一個(gè)相對(duì)固定的區(qū)間,最大到192,代表節(jié)個(gè)數(shù)的N在比這個(gè)更大的區(qū)間取值;構(gòu)造過(guò)程的數(shù)學(xué)表達(dá)式見(jiàn)公式(3),其中p(x,y)即為新生成的偽象素點(diǎn);p(x,y)=sn(x+1,y)x=2,3...N+1,y=1,2...N(3)步驟4將含有較多節(jié)的壓縮域數(shù)據(jù)分成具有重疊的塊,塊的大小為步驟3中N的大小,相鄰塊之間有著2節(jié)的跳矩,既有2/N的重疊率;步驟5使用公式(4)計(jì)算每一塊的0-2節(jié)Zernike矩<mrow><msub><mi>A</mi><mi>nm</mi></msub><mo>=</mo><mfrac><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow><mi>π</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><mo>+</mo><mo>∞</mo></mrow></munderover><munder><mi>Σ</mi><mi>m</mi></munder><mi>f</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>·</mo><msubsup><mi>V</mi><mrow><mi>n</mi><mo>,</mo><mi>m</mi></mrow><mo>*</mo></msubsup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>其中Vnm(x,y)=Vnm(ρ,θ)=Rnm(ρ).exp(jmθ),而這里,n為正整數(shù)或者零,m為或正或負(fù)的整數(shù),且m和n滿足(n-|m|)為偶數(shù)的條件,ρ是從原點(diǎn)到點(diǎn)(x,y)矢量的長(zhǎng)度,θ是矢量ρ和x軸正向之間沿著逆時(shí)針?lè)较虻膴A角;步驟6對(duì)于每塊“偽圖片”,將步驟5中得到0-2階Zernike矩的絕對(duì)值相加作為壓縮域音頻的指紋E(i),i表示第i個(gè)塊,具體計(jì)算如公式(5)E(i)=∑m|A(n,m)|(5)步驟7指紋模型化依據(jù)公式(6)計(jì)算相鄰塊之間指紋的符號(hào)差異,作為最終的存儲(chǔ)數(shù)據(jù)<mrow><mi>S</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo><</mo><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>≥</mo><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>,</mo><mi>i</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>N</mi><mi>slot</mi></msub><mo>-</mo><mn>1</mn><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>其中Nslot為塊的個(gè)數(shù)。FSA00000149223500014.tif,FSA00000149223500021.tif全文摘要本發(fā)明屬于基于內(nèi)容的音樂(lè)檢索
技術(shù)領(lǐng)域:
,具體為一種基于Zernike矩的壓縮域音頻指紋方法。本發(fā)明巧妙地將MP3壓縮域數(shù)據(jù)的修正離散余弦變換系數(shù)(MDCT系數(shù))的頻率和時(shí)間信息,與Zernike矩的一些特性相結(jié)合,如低階矩代表信號(hào)的整體特性,高階矩代表信號(hào)細(xì)節(jié)特性;Zernike矩有著旋轉(zhuǎn),縮放和平移的不變性特性,使最終構(gòu)成的音頻壓縮域指紋能夠魯棒的抵抗時(shí)間域的眾多信號(hào)處理和輕微的抵抗時(shí)間域信號(hào)處理。文檔編號(hào)G10L15/00GK101882439SQ20101019799公開(kāi)日2010年11月10日申請(qǐng)日期2010年6月10日優(yōu)先權(quán)日2010年6月10日發(fā)明者馮瑞,劉亞多,李偉,薛向陽(yáng)申請(qǐng)人:復(fù)旦大學(xué)