專利名稱:一種音頻片斷之間相似度度量的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于音頻檢索技術(shù)領(lǐng)域,具體涉及一種音頻片斷之間相似度度量的方法。
背景技術(shù):
隨著多媒體資料及應(yīng)用的不斷增多,音頻分析及檢索技術(shù)變得越來越重要,而音頻片斷檢索是上述技術(shù)的一種重要形式,即用戶給定一個音頻片斷,怎樣自動從音頻庫里檢索到相似的音頻片斷,并按照相似度從高到低排序?,F(xiàn)有的音頻檢索技術(shù),一般是從音頻片斷中提取出音頻特征,然后利用這些特征進行相似度度量,根據(jù)度量結(jié)果進行檢索。這種方法因為沒有考慮音頻片斷中具體內(nèi)容的差別,而采用音頻特征表示整個音頻片斷,因此不能有效度量音頻內(nèi)容的相似度。
2004年在Pacific-Rim Conference on Multimedia發(fā)表的文獻“DominantFeature Vectors Based Audio Similarity Measure”(作者是J.Gu,L.Lu,R.Cai,H.J.Zhang and J.Yang,頁碼是890-897),提出了一種基于音頻特征矩陣的特征向量和特征值的音頻特征主特征向量(Dominant Feature Vectors)。該文獻提取出音頻片段的幀特征定義成一個特征幀矩陣,然后計算這個矩陣的自相關(guān)矩陣,最后計算自相關(guān)矩陣的特征向量和特征值作為音頻片段特征。該方法是基于整個音頻片段的統(tǒng)計特征,因此無法描述音頻片斷中的內(nèi)容變化特性,從而限制了音頻檢索的準確度。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種音頻片斷相似度度量的方法,用于度量不同音頻片斷之間的相似度。
為達到以上目的,本發(fā)明采用的技術(shù)方案是一種音頻片斷之間相似度度量的方法,包括以下步驟(1)分別將待度量的音頻片斷分割為多個音質(zhì)相似的音頻單元;(2)計算上述兩個音頻片斷中任意兩個音頻單元之間的相似度;(3)根據(jù)(2)的結(jié)果,度量上述兩個音頻片斷之間的相似度。
更進一步,運用貝葉斯信息標準(Bayesian Information Criterion,BIC),將待度量的音頻片斷分割為多個音質(zhì)相似的音頻單元。
更進一步,使用如下公式計算兩個音頻單元的相似度Sim(si,sj)=exp(-Dis tan ce(si,sj)/2)Distance(si,sj)=(Σp=1n(fip-fjp)2)12]]>其中,si和sj表示兩個音頻單元,Dis tan ce(si,sj)表示si和sj音頻特征向量的歐式距離。
更進一步,音頻單元的特征向量,是采用該音頻單元中所有幀音頻特征向量的平均值表示。
更進一步,音頻幀的特征向量采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量。
更進一步度量上述兩個音頻片斷之間的相似度具體步驟為a把兩個音頻片斷的相似度度量建模為一個帶權(quán)二分圖;b運用最優(yōu)匹配度量兩個音頻片斷之間的相似度;c采用以下公式計算兩個音頻片斷之間的相似度SimOM(X,Y)=Σωijmax(p,q)]]>∑ωij表示兩個音頻片斷最優(yōu)匹配取得的最大相似度,p和q分別表示兩個音頻片斷X和Y的音頻單元數(shù)目。
另外,本發(fā)明提出一種音頻片斷檢索的方法,該方法可以更加有效地檢索與查詢片斷相似的音頻片斷,并按照相似度從高到低排序,從而可以更加充分地發(fā)揮音頻檢索技術(shù)在信息檢索中的巨大作用。
為達到以上目的,采用的技術(shù)方案是,一種音頻片斷檢索的方法,用于從音頻庫中檢索出與查詢的音頻片斷相似的音頻片斷,包括以下步驟(一)將查詢的音頻片斷及音頻庫中的音頻片斷分割為多個音質(zhì)相似的音頻單元;(二)分別計算查詢音頻片斷和音頻庫中音頻片斷中音頻單元之間的相似度;(三)分別度量上述查詢片斷和音頻庫中音頻片斷之間的相似度;(四)按相似度從高到低,檢索出與查詢片斷相似的音頻片斷。
進一步,運用貝葉斯信息標準(Bayesian Information Criterion,BIC),將查詢的音頻片斷及音頻庫中的音頻片斷分割為多個音質(zhì)相似的音頻單元。
進一步,使用如下公式計算兩個音頻單元的相似度Sim(si,sj)=exp(-Dis tan ce(si,sj)/2)Distance(si,sj)=(Σp=1n(fip-fjp)2)12]]>其中,si和sj表示兩個音頻單元,Dis tan ce(si,sj)表示si和sj音頻特征向量的歐式距離;其中音頻單元的特征向量,是采用該音頻單元中所有幀音頻特征向量的平均值表示,音頻幀的特征向量采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量。
進一步,度量查詢片斷和音頻庫中音頻片斷之間的相似度具體步驟為A把兩個音頻片斷的相似度度量建模為一個帶權(quán)二分圖;B運用最優(yōu)匹配度量兩個音頻片斷之間的相似度;C采用以下公式計算兩個音頻片斷之間的相似度SimOM(X,Y)=Σωijmax(p,q)]]>
∑ωij表示兩個音頻片斷最優(yōu)匹配取得的最大相似度,p和q分別表示兩個音頻片斷X和Y的音頻單元數(shù)目。
本發(fā)明的效果在于與現(xiàn)有方法相比,本發(fā)明可以取得更高的檢索準確性,從而充分發(fā)揮音頻檢索技術(shù)在信息檢索中的巨大作用。
本發(fā)明之所以具有上述發(fā)明效果,其原因在于針對現(xiàn)有技術(shù)的問題,本發(fā)明把音頻片斷檢索分為兩個層次音頻單元和音頻片斷。在音頻單元階段,本發(fā)明定義音頻單元是一系列音質(zhì)相似的音頻幀,首先把音頻片斷分為一個個音頻單元,然后度量兩個音頻片斷中音頻單元的相似度;在音頻片斷階段,基于音頻單元的度量結(jié)果,把兩個音頻片斷的相似度度量建模為一個帶權(quán)二分圖,最后使用最優(yōu)匹配度量兩個音頻片斷的相似度。
圖1是本發(fā)明的流程示意圖;圖2是本發(fā)明和現(xiàn)有3種方法的查全率對比示意圖;圖3是本發(fā)明和現(xiàn)有3種方法的查準率對比示意圖。
具體實施例方式
下面結(jié)合附圖和具體實施例對本發(fā)明作進一步詳細的描述。
如圖1所示,本發(fā)明的方法具體包括以下步驟(1)將查詢的音頻片斷及音頻庫中的音頻片斷分割為一個個音質(zhì)相似的音頻單元;首先運用貝葉斯信息標準(Bayesian Information Criterion,BIC),把音頻片斷分割為一個個音質(zhì)相似的音頻單元。關(guān)于貝葉斯信息標準的詳細描述,可以參考文獻“Efficient Audio Segmentation Algorithms based on the BIC”[M.Cettolo and M.Vescovi,IEEE International Conference on Acoustics,Speech andSignal Processing,2003]。
(2)分別計算查詢音頻片斷和音頻庫中音頻片斷中音頻單元之間的相似度;音頻幀的特征向量采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量,而音頻單元的特征向量,是采用該音頻單元中所有幀音頻特征向量的平均值表示。然后使用如下公式計算兩個音頻單元的相似度Sim(si,sj)=exp(-Dis tan ce(si,sj)/2)Distance(si,sj)=(Σp=1n(fip-fjp)2)12]]>其中,si和sj表示兩個音頻單元,Dis tan ce(si,sj)表示si和sj音頻特征向量的歐式距離。
(3)分別度量上述查詢片斷和音頻庫中音頻片斷之間的相似度;a把兩個音頻片斷的相似度度量建模為一個帶權(quán)二分圖;b運用最優(yōu)匹配度量兩個音頻片斷之間的相似度;c采用以下公式計算兩個音頻片斷之間的相似度SimOM(X,Y)=Σωijmax(p,q)]]>∑ωij表示兩個音頻片斷最優(yōu)匹配取得的最大相似度,p和q表示兩個音頻片斷X和Y的音頻單元數(shù)目。
(4)按相似度從高到低,檢索出與查詢片斷相似的音頻片斷。
下面的實驗結(jié)果表明,與現(xiàn)有方法相比,本發(fā)明可以取得更高的檢索準確性,從而充分發(fā)揮音頻檢索技術(shù)在信息檢索中的巨大作用。
本實施例中建立了1000個音頻片斷的數(shù)據(jù)庫,包括了許多類型的聲音片斷,例如動物聲、人聲、車輛聲、機器聲、音樂聲、槍炮聲等。在這1000個音頻片斷中,有500個片斷有一個或多個相似的片斷,而另外500個片斷僅僅出現(xiàn)了一次。因此,有一個或多個相似片斷的500個音頻片斷,被使用作為查詢片斷,以便驗證相似音頻片斷檢索的正確性。
為了證明本發(fā)明的有效性,我們測試了以下4種方法作為實驗對比1、本發(fā)明;2、現(xiàn)有方法12004年在Pacific-Rim Conference on Multimedia發(fā)表的文獻“Dominant Feature Vectors Based Audio Similarity Measure”(作者是J.Gu,L.Lu,R.Cai,H.J.Zhang and J.Yang,頁碼890-897);3、現(xiàn)有方法2L2距離;4、現(xiàn)有方法32000年在IEEE International Conference on Multimedia andExpo發(fā)表的文獻“Content-based Indexing and Retrieval-by-Example in Audio”(作者是Z.Liu and Q.Huang)。
上述4種方法,音頻幀特征都采用了對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量,因此,最后的實驗結(jié)果能夠證明本發(fā)明的優(yōu)越性。這4種方法的主要區(qū)別如表1所示表1本發(fā)明與現(xiàn)有方法的主要區(qū)別
實驗采用了兩種在MPEG-7標準化活動中的評價指標平均歸一化調(diào)整后的檢索秩ANMRR(Average Normalized Modified Retrieval Rank)和平均查全率AR(Average Recall)。AR類似于傳統(tǒng)的查全率(Recall),而ANMRR與傳統(tǒng)的查準率(Precision)相比,不僅能夠反映出正確的檢索結(jié)果比例,而且能夠反映出正確結(jié)果的排列序號。ANMRR值越小,意味著檢索得到的正確片斷的排名越靠前;AR值越大,意味著在前K(K是檢索結(jié)果的截斷值)個檢索結(jié)果中相似片斷占所有相似片斷的比例越大。所以,AR越大,說明片斷檢索的查全率越好;ANMRR越小,說明片斷檢索的準確性越高。表2是上述4種方法對500個音頻片斷檢索的AR和ANMRR比較。
表2本發(fā)明與現(xiàn)有方法的對比實驗結(jié)果
從表2可以看出,本發(fā)明無論是AR,還是ANMRR,都取得了比現(xiàn)有方法更好的效果,這主要是因為(1)本發(fā)明提出把音頻片斷的相似度建立在音頻單元的相似度之上,而音頻單元是一系列音質(zhì)相似的音頻幀,這保證了音頻片斷相似度度量的有效性;(2)本發(fā)明提出使用最優(yōu)匹配度量音頻片斷的相似度,最優(yōu)匹配具有一對一匹配的機制,這保證了音頻片斷度量的有效性。
為了進一步確認本發(fā)明的有效性,除了AR與ANMRR,我們采用了另外一組評價指標查全率和查準率,它們的定義如下查全率=檢索到的相關(guān)片斷數(shù)目/所有相關(guān)片斷的數(shù)目查準率=檢索到的相關(guān)片斷數(shù)目/檢索到的所有片斷數(shù)目結(jié)果如圖2和圖3所示,本發(fā)明無論是查全率,還是查準率,都取得了比現(xiàn)有方法更好的效果。因此,上述兩類評價指標AR與ANMRR,查全率和查準率,已經(jīng)全面證明了本發(fā)明在音頻片斷檢索中的出色效果。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
注本發(fā)明的工作,由國家自然科學(xué)基金資助(項目批準號60503062)。
權(quán)利要求
1.一種音頻片斷之間相似度度量的方法,其特征在于,包括以下步驟(1)分別將待度量的音頻片斷分割為多個音質(zhì)相似的音頻單元;(2)計算上述兩個音頻片斷中任意兩個音頻單元之間的相似度;(3)根據(jù)(2)的結(jié)果,度量上述兩個音頻片斷之間的相似度。
2.如權(quán)利要求1所述的一種音頻片斷之間相似度度量的方法,其特征在于步驟(1)中,運用貝葉斯信息標準(Bayesian Information Criterion,BIC),將待度量的音頻片斷分割為多個音質(zhì)相似的音頻單元。
3.如權(quán)利要求1所述的一種音頻片斷之間相似度度量的方法,其特征在于步驟(2)中,使用如下公式計算兩個音頻單元的相似度Sim(si,sj)=exp(-Dis tan ce(si,sj)/2)Distance(si,sj)=(Σp=1n(fip-fjp)2)12]]>其中,si和sj表示兩個音頻單元,Dis tan ce(si,sj)表示si和sj音頻特征向量的歐式距離。
4.如權(quán)利要求3所述的一種音頻片斷之間相似度度量的方法,其特征在于步驟(2)中,音頻單元的特征向量,是采用該音頻單元中所有幀音頻特征向量的平均值表示。
5.如權(quán)利要求4所述的一種音頻片斷之間相似度度量的方法,其特征在于步驟(2)中,音頻幀的特征向量采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量。
6.如權(quán)利要求1、2、3、4或5所述的一種音頻片斷之間相似度度量的方法,其特征在于步驟(3)具體為a把兩個音頻片斷的相似度度量建模為一個帶權(quán)二分圖;b運用最優(yōu)匹配度量兩個音頻片斷之間的相似度;c采用以下公式計算兩個音頻片斷之間的相似度SimOM(X,Y)=Σωijmax(p,q)]]>∑ωij表示兩個音頻片斷最優(yōu)匹配取得的最大相似度,p和q分別表示兩個音頻片斷X和Y的音頻單元數(shù)目。
7.一種音頻片斷檢索的方法,用于從音頻庫中檢索出與查詢的音頻片斷相似的音頻片斷,其特征在于,包括以下步驟(一)將查詢的音頻片斷及音頻庫中的音頻片斷分割為多個音質(zhì)相似的音頻單元;(二)分別計算查詢音頻片斷和音頻庫中音頻片斷中音頻單元之間的相似度;(三)分別度量上述查詢片斷和音頻庫中音頻片斷之間的相似度;(四)按相似度從高到低,檢索出與查詢片斷相似的音頻片斷。
8.如權(quán)利要求7所述的一種音頻片斷檢索的方法,其特征在于步驟(一)中,運用貝葉斯信息標準(Bayesian Information Criterion,BIC),將查詢的音頻片斷及音頻庫中的音頻片斷分割為多個音質(zhì)相似的音頻單元。
9.如權(quán)利要求7所述的音頻片斷檢索方法,其特征在于步驟(二)中,使用如下公式計算兩個音頻單元的相似度Sim(si,sj)=exp(-Dis tan ce(si,sj)/2)Distance(si,sj)=(Σp=1n(fip-fjp)2)12]]>其中,si和sj表示兩個音頻單元,Dis tan ce(si,sj)表示si和sj音頻特征向量的歐式距離;音頻單元的特征向量,是采用該音頻單元中所有幀音頻特征向量的平均值表示;音頻幀的特征向量采用的是對數(shù)能量和梅爾倒頻譜系數(shù)組成的13維特征向量。
10.如權(quán)利要求7、8或9所述的音頻片斷檢索方法,其特征在于步驟(三)具體為A把兩個音頻片斷的相似度度量建模為一個帶權(quán)二分圖;B運用最優(yōu)匹配度量兩個音頻片斷之間的相似度;C采用以下公式計算兩個音頻片斷之間的相似度SimOM(X,Y)=Σωijmax(p,q)]]>∑ωij表示兩個音頻片斷最優(yōu)匹配取得的最大相似度,p和q分別表示兩個音頻片斷X和Y的音頻單元數(shù)目。
全文摘要
本發(fā)明公開了一種音頻片斷之間相似度度量的方法。現(xiàn)有技術(shù)中,沒有考慮音頻片斷中具體內(nèi)容的差別而采用音頻特征表示整個音頻片斷,因此不能有效度量音頻內(nèi)容的相似度。針對上述問題,本發(fā)明把音頻片斷度量分為兩個層次音頻單元和音頻片斷。在音頻單元階段,本發(fā)明定義音頻單元是一系列音質(zhì)相似的音頻幀,首先把音頻片斷分割為一個個音頻單元,然后度量兩個音頻片斷中音頻單元的相似度;在音頻片斷階段,基于音頻單元的度量結(jié)果,把兩個音頻片斷的相似度度量建模為一個帶權(quán)二分圖,最后使用最優(yōu)匹配度量兩個音頻片斷的相似度。試驗結(jié)果表明,與現(xiàn)有方法相比,本發(fā)明可以取得更高的檢索準確性,從而充分發(fā)揮音頻檢索技術(shù)在信息檢索中的巨大作用。
文檔編號G06F17/30GK101079044SQ200610080669
公開日2007年11月28日 申請日期2006年5月25日 優(yōu)先權(quán)日2006年5月25日
發(fā)明者彭宇新, 房翠華, 陳曉鷗, 吳於茜 申請人:北大方正集團有限公司, 北京大學(xué), 北京北大方正技術(shù)研究院有限公司