一種基于Zernike矩的壓縮域音頻指紋方法

文檔序號(hào)：2823634閱讀：177來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：：一種基于Zernike矩的壓縮域音頻指紋方法
技術(shù)領(lǐng)域：
：本發(fā)明屬于基于內(nèi)容的音樂(lè)檢索
技術(shù)領(lǐng)域：
，具體涉及一種基于熵的壓縮域音頻信息識(shí)別的方法。
背景技術(shù)：
：音頻指紋是指基于內(nèi)容的引用檢索
技術(shù)領(lǐng)域：
中，可以代表一段音樂(lè)重要聲學(xué)特征的基于內(nèi)容的緊致的數(shù)字簽名，其主要目的是建立一種有效的機(jī)制來(lái)比較兩個(gè)音頻數(shù)據(jù)的感知聽(tīng)覺(jué)質(zhì)量的相似程度，使人們可以僅僅通過(guò)一個(gè)沒(méi)有任何文本標(biāo)記的音頻片段，便可得到和該音頻片段相關(guān)的元數(shù)據(jù)，如音頻的名字。這里不是直接比較通常很大的音頻數(shù)據(jù)本身，而是比較其相應(yīng)通常較小的數(shù)字指紋。大量音頻數(shù)據(jù)的指紋和其相應(yīng)的元數(shù)據(jù)比如歌曲名稱、詞曲作者、歌詞等內(nèi)容一起存儲(chǔ)在一個(gè)數(shù)據(jù)庫(kù)中，并采用指紋作為相應(yīng)元數(shù)據(jù)的索引。音頻指紋有著較多好處，具體來(lái)說(shuō)。首先因?yàn)橹讣y占用的存儲(chǔ)空間遠(yuǎn)遠(yuǎn)小于音頻數(shù)據(jù)本身，這樣可以節(jié)省很多的計(jì)算和內(nèi)存要求。其次指紋往往保留了音頻數(shù)據(jù)在聽(tīng)覺(jué)感知上的一些不變特性，因此能夠在音頻遭受了信號(hào)攻擊后，數(shù)據(jù)本身遭到破壞，而感知特性變化較小時(shí)，依然可以進(jìn)行有效比對(duì)。最后，保持指紋的數(shù)據(jù)庫(kù)往往遠(yuǎn)小于媒體數(shù)據(jù)庫(kù)，這樣可以進(jìn)行高效的搜索。音頻指紋現(xiàn)在已經(jīng)有著很多發(fā)展較為明朗的商業(yè)應(yīng)用場(chǎng)景，大致有如下幾類第一，指紋用于音頻的識(shí)別。例如音樂(lè)的識(shí)別。用戶在即使嘈雜的環(huán)境，例如酒吧或者公路上，用手機(jī)錄下的一些自己不知元數(shù)據(jù)的歌曲片段，通過(guò)手機(jī)發(fā)送到服務(wù)器端，而得到未知片段的詳細(xì)的元數(shù)據(jù)，如歌曲名字，專輯名字，購(gòu)買地址，或者更為直接的讓服務(wù)商把該完整音樂(lè)發(fā)送到自己的手機(jī)上。音頻的識(shí)別可以用來(lái)對(duì)音頻的內(nèi)容控制和跟蹤。音樂(lè)電臺(tái)可以通過(guò)音頻指紋來(lái)確定自己是否擁有某個(gè)音頻的播放權(quán)；而版權(quán)所有者可以通過(guò)音頻指紋監(jiān)視電臺(tái)是否已支付版權(quán)費(fèi)，并進(jìn)行播放統(tǒng)計(jì)；廣告商則可以監(jiān)視電臺(tái)是否按協(xié)議播放自己的廣告。音樂(lè)的版權(quán)擁有者，可以通過(guò)指紋來(lái)控制CD、DVD、MP3播放器等電子設(shè)備的行為，使消費(fèi)者不能夠播放盜版或者未付版權(quán)費(fèi)的電子音頻。音頻的識(shí)別可以用在增值服務(wù)。在音頻指紋的幫助下，不同用戶將得到自己感興趣的元信息。例如，普通用戶可能對(duì)一般信息如歌詞、歌曲名稱、詞曲作者、專輯年份、演唱者等感興趣；音樂(lè)家可能想知道樂(lè)器如何演奏以及節(jié)奏、旋律、和聲；而錄音師可能對(duì)錄音過(guò)程感興趣。元信息可以按照不同目的組織存儲(chǔ)，使用指紋技術(shù)進(jìn)行正確的檢索來(lái)得到用戶感興趣的信息。第二，音頻指紋可以用在內(nèi)容完整性校驗(yàn)，其目的在于檢測(cè)惡意操作對(duì)音頻數(shù)據(jù)的改變。第三，音頻指紋可以用作音頻水印技術(shù)的輔助手段。第四，音頻指紋還可以作為音頻信息檢索的基礎(chǔ)為音頻檢索和音頻處理服務(wù)當(dāng)前，已提出的音頻指紋算法主要有文獻(xiàn)[1]，作者將音頻信號(hào)首先被分割為0.37秒的幀，相互之間有1/32的跳距，使用Hamming窗平滑幀邊緣。每幀提取的32位特征叫做子指紋，由于相鄰幀之間有很大的重疊，相鄰子指紋也具有很大的相似性并且隨時(shí)間緩慢變化。為計(jì)算每幀的32比特子指紋，從估計(jì)的功率譜密度中選取33個(gè)非重疊的頻帶，其最終的數(shù)字指紋是相鄰子帶(分別在時(shí)間軸和頻率軸上)差分結(jié)果的符號(hào)。文獻(xiàn)[2]則在文獻(xiàn)[1]的基礎(chǔ)自上進(jìn)行了改進(jìn)，用子帶的熵替換了子帶能量作為中間特征。但是以上兩種方法都是非壓縮域的算法。文獻(xiàn)[3]利用MP3解碼過(guò)程的多想濾波后的系數(shù)作為原始數(shù)據(jù)，直接用子帶能量作為特征來(lái)為歌曲每個(gè)片段的索引，進(jìn)而檢索歌曲。正如作者所說(shuō)，他是第一個(gè)壓縮域識(shí)別算法。在用理想的數(shù)據(jù)建立的很小的數(shù)據(jù)集上，使用未受任何攻擊的音頻片段檢索，得到78%召回率和32%的準(zhǔn)確率。文獻(xiàn)[4]直接利用MDCT系數(shù)和子帶能量來(lái)表征一段人聲的聲學(xué)特性，進(jìn)而作為匹配片段時(shí)的特征。試驗(yàn)在數(shù)據(jù)容量114個(gè)的數(shù)據(jù)庫(kù)上利用清唱片段檢索，得到前5位結(jié)果76%的準(zhǔn)確率。文獻(xiàn)[5]提出的算法，首先將MP3數(shù)據(jù)流分塊，在每塊內(nèi)利用MDCT系數(shù)計(jì)算了頻譜能量，進(jìn)而將頻譜能量通過(guò)量化樹(shù)，建立了這塊音頻的索引。為了彌補(bǔ)將其他格式的音頻轉(zhuǎn)換到MP3帶來(lái)的準(zhǔn)確率，再次利用頻譜能量建立模擬旋律的能量包絡(luò)串“UD”串，子母“U”代表當(dāng)前12幀的譜能量大于前面12幀的譜能量，反之則用“D”表示。算法在包含某位歌手的176首數(shù)歌曲的數(shù)據(jù)上，利用從數(shù)據(jù)庫(kù)中歌曲任意截取的片段作為檢索片段，分別得到了前4位檢索結(jié)果74%的正確率和前5位檢索結(jié)果90%的正確率。該方法沒(méi)有考慮到片段檢索和可能的信號(hào)處理。文獻(xiàn)[6]設(shè)計(jì)了一種壓縮域內(nèi)魯棒的音頻指紋算法。該算法首先對(duì)MP3的數(shù)據(jù)幀進(jìn)行了帶有重疊的分塊，在每一個(gè)塊內(nèi)劃分子帶。計(jì)算每個(gè)子帶能量和整個(gè)塊的能量的比值作為“內(nèi)特征”，計(jì)算相鄰塊的同子帶的“內(nèi)特征”的差異做外特征值，最終作為歌曲的指紋。分析實(shí)驗(yàn)展示該算法對(duì)于下采樣，回聲，均衡化等攻擊具有魯棒性，可是該文沒(méi)能給出檢索的結(jié)果。
發(fā)明內(nèi)容本發(fā)明的目的在于提出音頻壓縮域(MP3)魯棒的音頻指紋方法。本發(fā)明提出的音頻壓縮域指紋方法，是基于Zernike矩的指紋方法。本發(fā)明方法巧妙地結(jié)合了MP3壓縮域數(shù)據(jù)的MDCT系數(shù)和Zernike矩的一些特性低階矩代表信號(hào)的整體特性，高階矩代表信號(hào)細(xì)節(jié)特性；Zernike矩有著旋轉(zhuǎn)，縮放和平移的不變性特性。使最終構(gòu)成的音頻壓縮域指紋方法有較強(qiáng)的魯棒性。本發(fā)明的步驟包括指紋構(gòu)造過(guò)程和檢索過(guò)程，如圖1所示。具體的指紋構(gòu)造步驟如下步驟1使用支持MP3的定點(diǎn)數(shù)解碼器“l(fā)ibmad”提取修正余弦變換系數(shù)(MDCT系數(shù))。因?yàn)樵贛P3變換中可以提取MDCT系數(shù)的地方為“逆量化”與“IMDCT”之間，見(jiàn)圖2。我們?cè)凇澳媪炕敝?，在“重排序”之前提取MDCT系數(shù)。步驟2對(duì)齊頻率分辨率。因?yàn)樵贛P3的一節(jié)(granule)包含了576個(gè)MDCT系數(shù)，但是，他們?cè)诰幋a過(guò)程中可能使用了長(zhǎng)窗口或者短窗口，使用長(zhǎng)窗口的一個(gè)節(jié)中的576個(gè)MDCT系數(shù)代表的頻率為OHZ到采樣頻率一半，而使用短窗口的一個(gè)節(jié)中包含了MDCT系數(shù)是在時(shí)間域上代表著三份，而每一份只有192個(gè)MDCT系數(shù)，也就是說(shuō)短窗口的192個(gè)MDCT系數(shù)代表的頻率為OHz到采樣頻率的一半，具體分布如圖3所示。因此，為了將使用長(zhǎng)短窗口的MDCT系數(shù)所代表的頻率一致化，需要將長(zhǎng)窗口的每3個(gè)MDCT系數(shù)聚集成一個(gè)新的系數(shù)，最終形成新的192個(gè)系數(shù)，而短窗口的在同一頻率上的三個(gè)MDCT系數(shù)也聚成一個(gè)新的系數(shù)，這樣長(zhǎng)短窗口的192系數(shù)將會(huì)保持一致的時(shí)間和頻率分析度。具體公式如下SiiCi0=E^Lgi-zIsC^ra)!I=1,2,...192,]=1,2...m(1)(2)其中，記第mth節(jié)的第IithMDCT系數(shù)為bys(η,m).,sn(i,j)代表ith第jth節(jié)的新得到的MDCT系數(shù)值，我們稱之為“偽像素值”。步驟3構(gòu)造MDCT系數(shù)“偽圖片”，如圖4所示，具體方法是將步驟2中生成的“偽像素值”作為輸入數(shù)據(jù)，成為計(jì)算Zernike矩的輸入數(shù)據(jù)。計(jì)算Zernike矩時(shí)，需要數(shù)據(jù)的為N*N的二維形式。第一個(gè)N在我們“偽像素值”中代表的頻率，第二個(gè)N代表的是節(jié)(granule)的個(gè)數(shù)。因?yàn)榇眍l率的N在試驗(yàn)中是一個(gè)相對(duì)固定的區(qū)間，最大可以到192，而后面一個(gè)N往往可以在比這個(gè)更大的區(qū)間取值。在頻率方向?qū)⑷〉?到第51個(gè)“偽像素值”，即N為50，作進(jìn)一步的處理。這些被選中的“偽像素值”所代表的頻率范圍為174Hz到6610Hz。構(gòu)造過(guò)程的數(shù)學(xué)表達(dá)式見(jiàn)公式(3)，其中？(1，7)即為新生成的偽象素點(diǎn)。ρ(x,y)=sn(x+l,y)x=2,3...N+l,y=1,2...N(3)步驟4將含有較多節(jié)(granule)的壓縮域數(shù)據(jù)分成具有重疊的塊。塊的大小為步驟3中的N的大小。相鄰塊之間有著2節(jié)的跳矩，也就是說(shuō)有著2/N的重疊率。步驟5使用公式(4)計(jì)算每一塊的0-2節(jié)Zernike矩，而),其中V·(x，y)=V·(ρ，θ)=Rnm(ρ)·exp(jmθ)，W而。其中η為可正整數(shù)或者零，m則為或正或負(fù)的整數(shù)，且m和η需要滿足(n-|m|)為偶數(shù)的條件。P是從原點(diǎn)到點(diǎn)(x，y)矢量的長(zhǎng)度，θ是矢量ρ和χ軸正向之間沿著逆時(shí)針?lè)较虻膴A角。f(x，y)為原始的二維信號(hào)，步驟6對(duì)于每塊“偽圖片”，將步驟5中得到0-2階Zernike矩的絕對(duì)值相加作為壓縮域音頻的中間特征E(i)，i為第i個(gè)塊。如公式(5)步驟7指紋模型化。依據(jù)公式(6)計(jì)算相鄰跨塊之間指紋的符號(hào)差異，作為最終的存儲(chǔ)數(shù)據(jù)。(6)其中Nsl。t為塊的個(gè)數(shù)。具體的匹配過(guò)程步驟在匹配過(guò)程中，將依據(jù)相同的指紋構(gòu)造方法計(jì)算出待識(shí)別片段的指紋，與數(shù)據(jù)庫(kù)中的所有指紋進(jìn)行窮舉比對(duì)，如圖5。因?yàn)槭褂?/1串作為最后的指紋存儲(chǔ)形式，那么，將依據(jù)漢明距離作為距離的測(cè)量標(biāo)準(zhǔn)，誤碼率(BER)作為最終評(píng)判標(biāo)準(zhǔn)。比對(duì)過(guò)程具體如下設(shè)Ns。ng代表數(shù)據(jù)庫(kù)歌曲的總數(shù)量，則其中第k首歌曲的指紋可表示為，檢索片段的指紋記為通常η<<Ν，分別指待識(shí)別片段和完整歌曲被劃分的塊數(shù)。采用誤碼率(漢明距離/n)作為衡量?jī)蓚€(gè)指紋序列之間的相似性的度量標(biāo)準(zhǔn)，使X°在Xk中滑動(dòng)(如圖所示)，窮舉搜索產(chǎn)生的最小誤碼率BER(k)及對(duì)應(yīng)的位置POS(k)。對(duì)所有的歌曲如此搜索后，將得到的全部BER(·)進(jìn)行遞增排序并分別計(jì)算首位、前五位、前十位命中率。并且對(duì)于首位的BER應(yīng)該小于一個(gè)給定的BER閾值，作為音頻識(shí)別的結(jié)果(是或者否的結(jié)果)，同時(shí)提供首位的實(shí)驗(yàn)誤檢率。而對(duì)于前五位，和前十位，我們給出的是檢索結(jié)果。詳見(jiàn)下邊的算法說(shuō)明。設(shè)待識(shí)別片段對(duì)應(yīng)的原始歌曲的編號(hào)為k°輸入待識(shí)別片段的指紋，指紋數(shù)據(jù)庫(kù)fork=1:Nsongforj=1，2，···，N-n+1POS(k)=jendresortBER(k)incrementallytoBER'(k')k'=index(k)endk'=Ik=index-1(k')ifk==k0andBER'(k')彡BERthresholdtopihit,return(k,POS(k))endfork'=2:5k=index-1(k')ifk==k0andBER'(k')彡BERthresholdtop5hit,return(k,POS(k))endendfork'=6:10k=index-1(k')ifk==k0andBER'(k')彡BERthresholdtoplOhit,return(k,POS(k))endend以上算法對(duì)一個(gè)給定片段總的匹配次數(shù)為(N-n+1)XNsong，運(yùn)算復(fù)雜度為0(Nsong)，N和η均為有限大小，主要由音樂(lè)數(shù)據(jù)庫(kù)的大小Nsong決定。BER閾值的確定例如對(duì)于待識(shí)別片段的指紋和存儲(chǔ)在數(shù)據(jù)庫(kù)中對(duì)應(yīng)的片段指紋，如果他們之間的BER小于α，那么我們將認(rèn)為他們是匹配的。具體做法如下，我們將一段未遭受任何處理的待識(shí)別片段和其遭受各種不同處理的片段到數(shù)據(jù)庫(kù)中進(jìn)行窮舉匹配，并且記下在所有匹配位處的BER。對(duì)于一個(gè)給定α，我們統(tǒng)計(jì)那些錯(cuò)誤匹配的個(gè)數(shù)來(lái)最終計(jì)算誤檢率(FPR)。圖1基于指紋的音頻識(shí)別框架圖。圖2:ΜΡ3解碼過(guò)程示意圖。圖3使用長(zhǎng)短窗口節(jié)中MDCT系數(shù)分布示意圖。圖4使用“偽像素”夠著“偽圖片”。圖5待識(shí)別音頻指紋在數(shù)據(jù)庫(kù)某首歌曲指紋中滑動(dòng)比較示意圖。圖6實(shí)施例中各種處理下的檢索結(jié)果圖示。具體實(shí)施例方式為了驗(yàn)證上述方法的有效性，本發(fā)明進(jìn)行了如下的實(shí)驗(yàn)。首先建立包含了1182首中文流行歌曲歌曲的數(shù)據(jù)庫(kù)，并按照上述方法構(gòu)造指紋。每一首歌曲參數(shù)設(shè)置為單聲道，30S長(zhǎng)，采樣率為44.ΙΚΗζ，碼率為64Kbps，大致有1141Bits的指紋。為了在指紋的粒度，魯棒性和檢索效率之間有個(gè)較好的折中，我們使用100首5S長(zhǎng)的待識(shí)別片段去測(cè)試，而每一首將遭受到較多的信號(hào)處理。對(duì)于BER的確定，我們選取了一首歌曲及其15種受到處理的版本，按照上述方法取得了在特定BER閾值的情況下對(duì)應(yīng)的FPR。如表1所示表1.PR及其對(duì)應(yīng)的BER閾值當(dāng)我們選定BER閾值為0.32時(shí)候，我們的誤檢率為2.7668e_006，這個(gè)在實(shí)際中是可以接受的。檢索結(jié)果見(jiàn)圖6所示，圖中給出了原始音樂(lè)在收到加回聲，加噪音，帶通，MP3壓縮，變調(diào)，變音量，時(shí)間尺度伸縮等信號(hào)處理下的識(shí)別結(jié)果。top-Ι表示在對(duì)應(yīng)的閾值下首位識(shí)別的結(jié)果，top-5,top-10分別表示在前5位和前10位的識(shí)別率。參考資料[1]J.HaitsmaandΤ.Kalker,“Ahighlyrobustaudiofingerprintingsystem,"proceedingoftheinternationalconferenceonmusicinformationretrieval(ISMIR2002)，pp.107-115.[2]A.C.IbarrolaandE.Chavez,"Arobustentropy-basedaudio-fingerprint,〃proceedingoftheIEEEinternationalconferenceonmultimediaandexpo(ICME2006)，pp.1729-1732.[3]C.C.LiuandP.J.Tsai，”Content-basedretrievalofMP3musicobjects，“proceedingoftheACMinternationalconferenceoninformationandknowledgemanagement2001，pp.506—511[4]W.N.LieandC.K.Su，“Content-basedretrievalofMP3songsbasedonquerybysinging,“proceedingoftheIEEEinternationalconferenceonacoustics，speech，andsignalprocessing(ICASSP2004),pp.929-932.[5]T.H.TsaiandJ.H.Hung，〃Content-basedretrievalofMP3songsforonesingerusingquantizationtreeindexingandmelody-linetrackingmethod,“proceedingoftheIEEEinternationalconferenceonacoustics，speech，andsignalprocessing(ICASSP2006),pp.505-508[6]Y.H.Jiao,B.Yang,M.Y.LiandX.M.Niu,“MDCT-basedperceptualhashingforcompressedaudiocontentidentification,“proceedingoftheIEEEworkshoponmultimediasignalprocessing(MSP2007)，pp.381—384.。權(quán)利要求一種基于Zernike矩的壓縮域音頻指紋方法，其特征在于指紋構(gòu)造的具體步驟如下步驟1，使用支持MP3的定點(diǎn)數(shù)解碼器“l(fā)ibmad”提取修正余弦變換系數(shù)，記為MDCT系數(shù)；步驟2，對(duì)齊頻率分辨率由于在MP3的一節(jié)包含576個(gè)MDCT系數(shù)，并且在編碼過(guò)程中使用長(zhǎng)窗口或者短窗口，為了將使用長(zhǎng)短窗口的MDCT系數(shù)所代表的頻率一致化，將長(zhǎng)窗口的每3個(gè)MDCT系數(shù)聚集成一個(gè)新的系數(shù)，最終形成新的192個(gè)系數(shù)，而短窗口的在同一頻率上的三個(gè)MDCT系數(shù)也聚成一個(gè)新的系數(shù)，使長(zhǎng)短窗口的192系數(shù)保持一致的時(shí)間和頻率分析度，具體公式如下<mrow><mi>sn</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><msubsup><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><mn>3</mn><mi>i</mi><mo>-</mo><mn>2</mn></mrow><mrow><mn>3</mn><mi>i</mi></mrow></msubsup><mo>|</mo><mi>s</mi><mrow><mo>(</mo><mi>n</mi><mo>,</mo><mi>m</mi><mo>)</mo></mrow><mo>|</mo><mi>i</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mn>192</mn><mo>,</mo><mi>j</mi><mo>=</mo><mn>1,2</mn><mo>.</mo><mo>.</mo><mo>.</mo><mi>m</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><mi>sn</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>sn</mi><mrow><mo>(</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>)</mo></mrow></mrow><mn>3</mn></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>其中，s(n，m)為第mth節(jié)的第nthMDCT系數(shù)，sn(i，j)代表ith第jth節(jié)的新得到的MDCT系數(shù)值，稱之為“偽像素值”；步驟3，構(gòu)造MDCT系數(shù)“偽圖片”將步驟2中生成的“偽像素值”作為計(jì)算Zernike矩的輸入數(shù)據(jù)；計(jì)算Zernike矩時(shí)，需要數(shù)據(jù)的形式為N*N的二維形式，第一個(gè)N在所述“偽像素值”中代表頻率，第二個(gè)N代表節(jié)的個(gè)數(shù)；代表頻率的N是一個(gè)相對(duì)固定的區(qū)間，最大到192，代表節(jié)個(gè)數(shù)的N在比這個(gè)更大的區(qū)間取值；構(gòu)造過(guò)程的數(shù)學(xué)表達(dá)式見(jiàn)公式(3)，其中p(x，y)即為新生成的偽象素點(diǎn)；p(x，y)＝sn(x+1，y)x＝2，3...N+1，y＝1，2...N(3)步驟4將含有較多節(jié)的壓縮域數(shù)據(jù)分成具有重疊的塊，塊的大小為步驟3中N的大小，相鄰塊之間有著2節(jié)的跳矩，既有2/N的重疊率；步驟5使用公式(4)計(jì)算每一塊的0-2節(jié)Zernike矩<mrow><msub><mi>A</mi><mi>nm</mi></msub><mo>=</mo><mfrac><mrow><mi>n</mi><mo>+</mo><mn>1</mn></mrow><mi>π</mi></mfrac><munderover><mi>Σ</mi><mrow><mi>n</mi><mo>=</mo><mn>0</mn></mrow><mrow><mo>+</mo><mo>∞</mo></mrow></munderover><munder><mi>Σ</mi><mi>m</mi></munder><mi>f</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>·</mo><msubsup><mi>V</mi><mrow><mi>n</mi><mo>,</mo><mi>m</mi></mrow><mo>*</mo></msubsup><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>其中Vnm(x，y)＝Vnm(ρ，θ)＝Rnm(ρ).exp(jmθ)，而這里，n為正整數(shù)或者零，m為或正或負(fù)的整數(shù)，且m和n滿足(n-|m|)為偶數(shù)的條件，ρ是從原點(diǎn)到點(diǎn)(x，y)矢量的長(zhǎng)度，θ是矢量ρ和x軸正向之間沿著逆時(shí)針?lè)较虻膴A角；步驟6對(duì)于每塊“偽圖片”，將步驟5中得到0-2階Zernike矩的絕對(duì)值相加作為壓縮域音頻的指紋E(i)，i表示第i個(gè)塊，具體計(jì)算如公式(5)E(i)＝∑m|A(n，m)|(5)步驟7指紋模型化依據(jù)公式(6)計(jì)算相鄰塊之間指紋的符號(hào)差異，作為最終的存儲(chǔ)數(shù)據(jù)<mrow><mi>S</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><mn>0</mn></mtd><mtd><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo><</mo><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&GreaterEqual;</mo><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>,</mo><mi>i</mi><mo>=</mo><mn>1,2</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>N</mi><mi>slot</mi></msub><mo>-</mo><mn>1</mn><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>其中Nslot為塊的個(gè)數(shù)。FSA00000149223500014.tif,FSA00000149223500021.tif全文摘要本發(fā)明屬于基于內(nèi)容的音樂(lè)檢索
技術(shù)領(lǐng)域：
，具體為一種基于Zernike矩的壓縮域音頻指紋方法。本發(fā)明巧妙地將MP3壓縮域數(shù)據(jù)的修正離散余弦變換系數(shù)(MDCT系數(shù))的頻率和時(shí)間信息，與Zernike矩的一些特性相結(jié)合，如低階矩代表信號(hào)的整體特性，高階矩代表信號(hào)細(xì)節(jié)特性；Zernike矩有著旋轉(zhuǎn)，縮放和平移的不變性特性，使最終構(gòu)成的音頻壓縮域指紋能夠魯棒的抵抗時(shí)間域的眾多信號(hào)處理和輕微的抵抗時(shí)間域信號(hào)處理。文檔編號(hào)G10L15/00GK101882439SQ20101019799公開(kāi)日2010年11月10日申請(qǐng)日期2010年6月10日優(yōu)先權(quán)日2010年6月10日發(fā)明者馮瑞,劉亞多,李偉,薛向陽(yáng)申請(qǐng)人:復(fù)旦大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李偉;劉亞多;馮瑞;薛向陽(yáng)
技術(shù)所有人：復(fù)旦大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

百度地圖矩形框選區(qū)域相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于Zernike矩的壓縮域音頻指紋方法