實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法
【專利摘要】本發(fā)明涉及音頻處理【技術(shù)領(lǐng)域】,公開了一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法。該系統(tǒng)包括:獲取模塊,用于獲取各音頻文件;特征提取模塊,用于從所述音頻文件中提取音頻比對(duì)特征;匹配模塊,用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段;合并模塊,用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式。利用本發(fā)明,可以實(shí)現(xiàn)大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
【專利說明】實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻處理【技術(shù)領(lǐng)域】,具體涉及一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法。
【背景技術(shù)】
[0002]隨著通訊技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的音頻數(shù)據(jù)出現(xiàn)在人們的日常生活中。和文本數(shù)據(jù)不同,音頻數(shù)據(jù)是非符號(hào)化的信號(hào)數(shù)據(jù),對(duì)其處理也更為困難。音頻信號(hào)處理在信息安全和輿情監(jiān)控應(yīng)用中有著非常重要的應(yīng)用價(jià)值,特別是從海量音頻數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)頻繁出現(xiàn)的音頻片段,即音頻文件重復(fù)發(fā)現(xiàn),有實(shí)際意義。對(duì)電話類音頻數(shù)據(jù),利用該技術(shù)可以快速發(fā)現(xiàn)正在傳播的非法電話錄音。而對(duì)互聯(lián)網(wǎng)音視頻數(shù)據(jù),利用該技術(shù)可以快速準(zhǔn)確地挖掘出目前最流行的音視頻片段。進(jìn)一步地,通過音頻文件重復(fù)模式發(fā)現(xiàn)技術(shù)可獲得重復(fù)音頻模板庫(kù),便于利用所述音頻模板匹配技術(shù)檢測(cè)新增音頻文件中是否包含模板庫(kù)中的音頻片段,實(shí)現(xiàn)快速定位確認(rèn),及時(shí)了解音頻模板庫(kù)中的音頻模板在電話網(wǎng)或互聯(lián)網(wǎng)上的傳播情況。
[0003]現(xiàn)有的重復(fù)模式發(fā)現(xiàn)技術(shù)只能處理符號(hào)化數(shù)據(jù)的重復(fù)子集發(fā)現(xiàn)問題,對(duì)信號(hào)級(jí)別的音頻數(shù)據(jù)沒有可以使用的有效方案。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法,以解決在海量音頻庫(kù)中重復(fù)片段自動(dòng)搜索的問題。
[0005]為此,本發(fā)明提供如下技術(shù)方案:
[0006]一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng),包括:
[0007]獲取模塊,用于獲取各音頻文件;
[0008]特征提取模塊,用于從所述音頻文件中提取音頻比對(duì)特征;
[0009]匹配模塊,用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段;
[0010]合并模塊,用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,得到音頻文件重復(fù)模式。
[0011]優(yōu)選地,所述特征提取模塊包括:
[0012]降采樣單元,用于對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣;
[0013]矢量轉(zhuǎn)化單元,用于將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
[0014]優(yōu)選地,所述匹配模塊包括:
[0015]粗匹配單元,用于基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界;
[0016]合并單元,用于在相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門限值時(shí),將所述兩個(gè)重復(fù)子段合并;[0017]精確匹配模塊,用于基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
[0018]優(yōu)選地,所述粗匹配單元包括:
[0019]提取單元,用于依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征;
[0020]查找單元,用于查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀;
[0021]第一擴(kuò)展單元,用于在所述查找單元查找到所述匹配幀后,分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展;
[0022]第一邊界確定單元,用于在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
[0023]優(yōu)選地,所述精確匹配單元包括:
[0024]第二擴(kuò)展單元,用于對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展;
[0025]判斷單元,用于計(jì)算在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分,并且在所述平均得分小于設(shè)定值時(shí),通知所述第二擴(kuò)展單元停止擴(kuò)展;
[0026]第二邊界確定單元,用于在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
[0027]一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法,包括:
[0028]獲取各音頻文件;
[0029]從所述音頻文件中提取音頻比對(duì)特征;
[0030]基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段;
[0031]將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,得到音頻文件重復(fù)模式。
[0032]優(yōu)選地,所述從各音頻文件中提取音頻特征包括:
[0033]對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣;
[0034]將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
[0035]優(yōu)選地,所述基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段包括:
[0036]基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界;
[0037]如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門限值,則將所述兩個(gè)重復(fù)子段合并;
[0038]基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
[0039]優(yōu)選地,所述基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界包括:
[0040]依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征;
[0041]查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀;
[0042]查找到所述匹配幀后,分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展;
[0043]在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。[0044]優(yōu)選地,所述基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段包括:
[0045]對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展;
[0046]如果在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分小于設(shè)定值,則停止擴(kuò)展;
[0047]在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
[0048]本發(fā)明實(shí)施例提供的實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法,從各音頻文件中提取音頻比對(duì)特征,基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段,將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式,從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0049]進(jìn)一步地,在進(jìn)行音頻文件的匹配時(shí),首先通過粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后通過精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界,在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0050]為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
[0051]圖1是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)的一種結(jié)構(gòu)框圖;
[0052]圖2是本發(fā)明實(shí)施例中匹配模塊的一種結(jié)構(gòu)示意圖;
[0053]圖3是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)的方法的流程圖;
[0054]圖4是本發(fā)明實(shí)施例中重復(fù)音頻片段進(jìn)行合并的示意圖;
[0055]圖5是本發(fā)明實(shí)施例中對(duì)兩個(gè)音頻文件進(jìn)行匹配的流程圖;
[0056]圖6是本發(fā)明實(shí)施例中重復(fù)子段合并的示意圖;
[0057]圖7是本發(fā)明實(shí)施例中確定重復(fù)音頻片段邊界的示意圖。
【具體實(shí)施方式】
[0058]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說明。
[0059]重復(fù)模式發(fā)現(xiàn)即搜索數(shù)據(jù)庫(kù)中重復(fù)出現(xiàn)的模式,是數(shù)據(jù)挖掘領(lǐng)域的任務(wù)之一。重復(fù)模式發(fā)現(xiàn)技術(shù)在符合一定結(jié)構(gòu)的符號(hào)類數(shù)據(jù)庫(kù)中有著較為廣泛的應(yīng)用,包括對(duì)數(shù)據(jù)庫(kù)中頻繁出現(xiàn)的項(xiàng)集、子序列、字結(jié)構(gòu)等的發(fā)現(xiàn)。如文本數(shù)據(jù)中的重復(fù)模式即指重復(fù)出現(xiàn)的句子或段落等。對(duì)符號(hào)類數(shù)據(jù)的重復(fù)模式發(fā)現(xiàn)可以利用傳統(tǒng)高效的Apriori等算法獲得。
[0060]由于音頻數(shù)據(jù)是非符號(hào)化的信號(hào)數(shù)據(jù),現(xiàn)有的Apriori算法并不適用,而且目前沒有任何方案可以解決音頻數(shù)據(jù)的重復(fù)模式發(fā)現(xiàn)問題。
[0061]為此,本發(fā)明實(shí)施例提供一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法,從各音頻文件中提取音頻比對(duì)特征,基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段,將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式,從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0062]進(jìn)一步地,在進(jìn)行音頻文件的匹配時(shí),首先通過粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后通過精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界,在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
[0063]如圖1所示,是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法的系統(tǒng)的結(jié)構(gòu)示意圖。
[0064]在該實(shí)施例中,所述系統(tǒng)包括:
[0065]獲取模塊101,用于獲取各音頻文件;
[0066]特征提取模塊102,用于從所述音頻文件中提取音頻比對(duì)特征。
[0067]匹配模塊103,用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段;
[0068]合并模塊104,用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,得到音頻文件重復(fù)模式。
[0069]具體地,合并模塊104在對(duì)多組匹配結(jié)果進(jìn)行合并時(shí),可以利用每組結(jié)果在音頻文件中的位置信息,考慮多組結(jié)果之間的相交疊部分比例等。
[0070]比如,音頻文件A的片段[tl,t2]與音頻文件B的片段[t3,t4]是長(zhǎng)度為Ienl的相同片段。音頻文件B的片段[t5,t6]與音頻文件C的片段[t7,t8]是長(zhǎng)度為len2的相同片段。其中,t4>t5H3,t6>t4,即[t3,t4]與[t5, t6]是有交疊的,交疊部分為[t4,t5]。因此,音頻文件B中的片段[t4,t5]是音頻文件A、B、C中存在的重復(fù)音頻片段,長(zhǎng)度為len3。合并模塊104的作用是從音頻文件A的片段[tl,t2]、音頻文件B的片段[t3,t4]、音頻文件B的片段[t5,t6]、音頻文件C的片段[t7,t8]中找出公共部分,即上述片段[t4,t5]。
[0071]在實(shí)際應(yīng)用中,上述獲取模塊101具體可以從音頻文件庫(kù)中得到各音頻文件。
[0072]特征提取模塊102可以包括降采樣單元和矢量轉(zhuǎn)化單元(未圖示)。其中:
[0073]所述降采樣單元用于對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣。
[0074]所述矢量轉(zhuǎn)化單元,用于將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。具體地,可以通過頻譜分析,利用加窗FFT(Fast Fourier Transform,快速傅里葉變換),將時(shí)域信息轉(zhuǎn)換成頻域信息。然后將頻域進(jìn)行非平均劃分,逐一計(jì)算子帶能量,對(duì)計(jì)算得到的子帶能量進(jìn)行二值量化,即將音頻數(shù)據(jù)量化為一系列二進(jìn)制的特征矢量序列。每一幀原始音頻數(shù)據(jù)可用一個(gè)二進(jìn)制特征矢量序列表示。
[0075]在本發(fā)明實(shí)施例中,匹配模塊103首先通過粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后對(duì)粗匹配的結(jié)果中多組重復(fù)子段進(jìn)行合并,即將多個(gè)相鄰的重復(fù)片段合并得到連續(xù)的大段重復(fù)片段,最后通過精確匹配界定在兩個(gè)音頻文件中重復(fù)片段邊界的位置,獲得精確的重復(fù)音頻片段。
[0076]如圖2所示,是本發(fā)明實(shí)施例中匹配模塊的一種結(jié)構(gòu)示意圖。
[0077]在該實(shí)施例中,所述匹配模塊包括:
[0078]粗匹配單元201,用于基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界,具體過程將在后面本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法中詳細(xì)描述。
[0079]合并單元202,用于在相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門限值時(shí),將所述兩個(gè)重復(fù)子段合并。
[0080]精確匹配單元203,用于基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段,具體過程將在后面本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法中詳細(xì)描述。
[0081]在本發(fā)明實(shí)施例中,所述粗匹配單元201包括:
[0082]提取單元,用于依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征;
[0083]查找單元,用于查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀;
[0084]第一擴(kuò)展單元,用于在所述查找單元查找到所述匹配幀后,分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展;
[0085]第一邊界確定單元,用于在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
[0086]在本發(fā)明實(shí)施例中,所述精確匹配單元203包括:
[0087]第二擴(kuò)展單元,用于對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展;
[0088]判斷單元,用于計(jì)算在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分,并且在所述平均得分小于設(shè)定值時(shí),通知所述第二擴(kuò)展單元停止擴(kuò)展;
[0089]第二邊界確定單元,用于在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
[0090]可見,本發(fā)明實(shí)施例提供的實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng),從各音頻文件中提取音頻比對(duì)特征,基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段,將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式,從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0091]進(jìn)一步地,在進(jìn)行音頻文件的匹配時(shí),首先通過粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后通過精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界,在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
[0092]相應(yīng)地,本發(fā)明實(shí)施例還提供一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法,如圖3所示,是本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法的流程圖,包括以下步驟:
[0093]步驟301,獲取各音頻文件。
[0094]可以從音頻文件庫(kù)中得到各音頻文件。
[0095]步驟302,從所述音頻文件中提取音頻比對(duì)特征。
[0096]可以首先對(duì)各音頻文件數(shù)據(jù)進(jìn)行降采樣,比如可以采用低通濾波器對(duì)原始數(shù)據(jù)進(jìn)行降采樣,通過降采樣處理可以在不帶來信息損失的前提下減少原始數(shù)據(jù)的數(shù)據(jù)量,不僅可以提高處理效率,而且可以提高低頻子帶的分辨率,對(duì)每幀數(shù)據(jù)提取更長(zhǎng)時(shí)的信息。然后,將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
[0097]具體地,在進(jìn)行數(shù)據(jù)量化的過程中,可以通過頻譜分析,利用加窗FFT (FastFourier Transform,快速傅里葉變換),將時(shí)域信息轉(zhuǎn)換成頻域信息。然后將頻域進(jìn)行非平均劃分,逐一計(jì)算子帶能量,對(duì)計(jì)算得到的子帶能量進(jìn)行二值量化,即將音頻數(shù)據(jù)量化為一系列二進(jìn)制的特征矢量序列。每一幀原始音頻數(shù)據(jù)可用一個(gè)二進(jìn)制特征矢量序列表示。
[0098]步驟303,基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段。
[0099]首先可以對(duì)兩個(gè)音頻文件進(jìn)行粗匹配,獲取兩音頻文件中各重復(fù)子段的邊界,SP兩音頻文件中可能重復(fù)的音頻片段的大致位置,然后對(duì)粗匹配的結(jié)果中多組重復(fù)子段進(jìn)行合并,即將多個(gè)相鄰的重復(fù)片段合并得到連續(xù)的大段重復(fù)片段,最后通過精確匹配界定在兩個(gè)音頻文件中重復(fù)片段邊界的位置,獲得精確的重復(fù)音頻片段。具體過程將在后面詳細(xì)描述。
[0100]步驟304,將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式。
[0101]如圖4所示,是本發(fā)明實(shí)施例中重復(fù)音頻片段進(jìn)行合并的示意圖。
[0102]對(duì)得到的多組兩文件間的重復(fù)音頻片段進(jìn)行合并,實(shí)現(xiàn)多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻模式的合并。
[0103]在對(duì)多組匹配結(jié)果進(jìn)行合并時(shí),可以利用每組結(jié)果在音頻文件中的位置信息,考慮多組結(jié)果之間的相交疊部分比例等。
[0104]比如,音頻文件A的片段[tl,t2]與音頻文件B的片段[t3,t4]是長(zhǎng)度為Ienl的相同片段。音頻文件B的片段[t5,t6]與音頻文件C的片段[t7,t8]是長(zhǎng)度為len2的相同片段。其中,t4>t5H3,t6>t4,即[t3,t4]與[t5, t6]是有交疊的,交疊部分為[t4,t5]。因此,音頻文件B中的片段[t4,t5]是音頻文件A、B、C中存在的重復(fù)音頻片段,長(zhǎng)度為len3。合并模塊104的作用是從音頻文件A的片段[tl,t2]、音頻文件B的片段[t3,t4]、音頻文件B的片段[t5,t6]、音頻文件C的片段[t7,t8]中找出公共部分,即上述片段[t4,t5]。
[0105]可見,本發(fā)明實(shí)施例提供的實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法,從各音頻文件中提取音頻比對(duì)特征,基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段,將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,生成音頻文件重復(fù)模式,從而實(shí)現(xiàn)了大規(guī)模音頻庫(kù)中重復(fù)模式的準(zhǔn)確發(fā)現(xiàn)。
[0106]進(jìn)一步地,在進(jìn)行音頻文件的匹配時(shí),首先通過粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后通過精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界,在提高檢出效率的同時(shí)提高了準(zhǔn)確性。
[0107]如圖5所示,是本發(fā)明實(shí)施例中對(duì)兩個(gè)音頻文件進(jìn)行匹配的流程圖,包括以下步驟:
[0108]步驟501,基于音頻比對(duì)特征對(duì)兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界。
[0109]具體地,可以對(duì)兩個(gè)音頻文件的比對(duì)特征進(jìn)行逐幀比對(duì),首先從第一個(gè)音頻文件的比對(duì)特征序列中提取一幀的比對(duì)特征,然后在第二個(gè)音頻文件的比對(duì)特征序列中進(jìn)行逐幀查找,查找與該比對(duì)特征相同的幀,從該匹配幀所在音頻文件(即第二個(gè)音頻文件)中的位置向前、后擴(kuò)展時(shí)長(zhǎng)L(例如,10幀,具體數(shù)值可根據(jù)數(shù)據(jù)的實(shí)際情況進(jìn)行設(shè)置)。相應(yīng)地,對(duì)第一個(gè)音頻文件,同樣需要對(duì)相應(yīng)幀的位置進(jìn)行前、后擴(kuò)展時(shí)長(zhǎng)L。然后,在擴(kuò)展后的特征序列中尋找兩個(gè)音頻文件中最相似片段,并計(jì)算在此長(zhǎng)度范圍內(nèi)的幀錯(cuò)誤率。如果幀錯(cuò)誤率超過設(shè)定的閾值(比如0.2),則將該片段丟棄;否則保留該片段,將其作為重復(fù)音頻片段中的一個(gè)重復(fù)子段。當(dāng)然,在進(jìn)行前、后擴(kuò)展時(shí),擴(kuò)展的時(shí)長(zhǎng)也可以不同,對(duì)此本發(fā)明實(shí)施例不做限定。
[0110]步驟502,如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門限值,則將所述兩個(gè)重復(fù)子段合并。
[0111]由于在粗匹配過程中得到的重復(fù)子段邊界并非最優(yōu),可能存在一些本應(yīng)為一大段重復(fù)片段,但被拆成了多組間隔較小的小片段的情況,因此,在本發(fā)明實(shí)施例中,可以將這些重復(fù)子段進(jìn)行合并,以減少后續(xù)精確匹配所需的工作量。
[0112]在對(duì)重復(fù)子段進(jìn)行合并時(shí),可以根據(jù)相鄰兩重復(fù)子段的間隔及長(zhǎng)度來決定是否對(duì)其進(jìn)行合并。具體地,如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門限值,則將所述兩個(gè)重復(fù)子段合并,也就是說,將相鄰的兩個(gè)小片段合并成一個(gè)大的片段。
[0113]如圖6所示,是本發(fā)明實(shí)施例中重復(fù)子段合并的示意圖。
[0114]步驟503,基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
[0115]精確匹配的作用是獲得更加準(zhǔn)確的重復(fù)音頻片段邊界,精確匹配的過程使用相對(duì)粗匹配中更加精細(xì)的尺度進(jìn)行計(jì)算。比如,可以計(jì)算特征比特錯(cuò)誤率,具體匹配過程與粗匹配過程類似。通過精確匹配,可以找到兩個(gè)音頻文件最相似的重復(fù)音頻片段。
[0116]如圖7所示,是本發(fā)明實(shí)施例中確定重復(fù)音頻片段邊界的示意圖。
[0117]圖中L表示兩個(gè)音頻文件中最相似的片段,在確定該片段的邊界時(shí),首先在片段L的上邊界向上擴(kuò)展,直到找到一個(gè)窗SI,如果窗SI內(nèi)的比特錯(cuò)誤率的平均得分小于設(shè)定值,則停止向上擴(kuò)展,并在窗SI中確定重復(fù)音頻片段的上邊界。同理,在片段L的下邊界向下擴(kuò)展,確定重復(fù)音頻片段的下邊界。
[0118]上述在擴(kuò)展窗中確定重復(fù)音頻片段邊界的過程就是在原有邊界的基礎(chǔ)上按照一定的步長(zhǎng)(如上文中的Si)擴(kuò)展邊界,并計(jì)算擴(kuò)展后的比特錯(cuò)誤率的平均得分。如果平均得分沒有超過閾值,那么繼續(xù)擴(kuò)展;如果平均得分超過了閾值,那么上一次擴(kuò)展的邊界就是最終邊界。
[0119]現(xiàn)有的針對(duì)音頻的重復(fù)模式發(fā)現(xiàn)技術(shù)一般只能在輸入短音頻的情況下在音頻文件庫(kù)中發(fā)現(xiàn)一些與其旋律相似的片段,且是一種模糊式的。而本發(fā)明實(shí)施例實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng)和方法,可以在海量音頻庫(kù)中自動(dòng)發(fā)掘重復(fù)模式,而且,在進(jìn)行音頻文件的匹配時(shí),首先通過粗匹配的方式快速發(fā)現(xiàn)重復(fù)音頻片段的大致位置,然后通過精確匹配確定準(zhǔn)確的重復(fù)的音頻片段邊界,使得發(fā)現(xiàn)的重復(fù)片段更加精確,而并非僅是音律上的相似。
[0120]本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。而且,以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0121]以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及設(shè)備;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的系統(tǒng),其特征在于,包括: 獲取模塊,用于獲取各音頻文件; 特征提取模塊,用于從所述音頻文件中提取音頻比對(duì)特征; 匹配模塊,用于基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段; 合并模塊,用于將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,得到音頻文件重復(fù)模式。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述特征提取模塊包括: 降采樣單元,用于對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣; 矢量轉(zhuǎn)化單元,用于將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述匹配模塊包括: 粗匹配單元,用于基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界; 合并單元,用于在相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門限值時(shí),將所述兩個(gè)重復(fù)子段合并; 精確匹配模塊,用于基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
4.根據(jù)權(quán)利要求3所 述的系統(tǒng),其特征在于,所述粗匹配單元包括: 提取單元,用于依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征; 查找單元,用于查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀;第一擴(kuò)展單元,用于在所述查找單元查找到所述匹配幀后,分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展; 第一邊界確定單元,用于在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
5.根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于,所述精確匹配單元包括: 第二擴(kuò)展單元,用于對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展; 判斷單元,用于計(jì)算在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分,并且在所述平均得分小于設(shè)定值時(shí),通知所述第二擴(kuò)展單元停止擴(kuò)展; 第二邊界確定單元,用于在擴(kuò)展的上、下視窗內(nèi)分別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
6.一種實(shí)現(xiàn)音頻文件重復(fù)模式發(fā)現(xiàn)的方法,其特征在于,包括: 獲取各音頻文件; 從所述音頻文件中提取音頻比對(duì)特征; 基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段; 將在多個(gè)音頻文件中均出現(xiàn)的重復(fù)音頻片段進(jìn)行合并,得到音頻文件重復(fù)模式。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述從各音頻文件中提取音頻特征包括: 對(duì)所述音頻文件數(shù)據(jù)進(jìn)行降采樣; 將所述降采樣后的數(shù)據(jù)量化為二進(jìn)制的特征矢量序列。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述基于所述音頻比對(duì)特征依次兩兩匹配所述音頻文件,得到兩兩匹配的重復(fù)音頻片段包括:基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界; 如果相鄰的兩個(gè)重復(fù)子段的長(zhǎng)度均大于第一門限值,并且所述兩個(gè)重復(fù)子段的間隔小于第二門限值,則將所述兩個(gè)重復(fù)子段合并; 基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述基于所述音頻比對(duì)特征對(duì)任意兩個(gè)音頻文件進(jìn)行粗匹配,確定各重復(fù)子段的邊界包括: 依次提取其中一個(gè)音頻文件的一幀音頻比對(duì)特征; 查找另一個(gè)音頻文件中與提取的所述音頻比對(duì)特征相同的匹配幀; 查找到所述匹配幀后,分別對(duì)所述匹配幀及提取的音頻比對(duì)特征所在幀進(jìn)行前后擴(kuò)展; 在擴(kuò)展后的時(shí)長(zhǎng)內(nèi)確定重復(fù)子段的邊界。
10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述基于合并后的重復(fù)子段對(duì)所述兩個(gè)音頻文件進(jìn)行精確匹配,得到所述兩個(gè)音頻文件的重復(fù)音頻片段包括: 對(duì)所述重復(fù)子段分別在兩個(gè)音頻文件中向上和向下擴(kuò)展; 如果在擴(kuò)展的視窗內(nèi)的比特錯(cuò)誤率的平均得分小于設(shè)定值,則停止擴(kuò)展; 在擴(kuò)展的上、下視窗內(nèi)分.別確定所述兩個(gè)音頻文件的重復(fù)音頻片段的上、下邊界。
【文檔編號(hào)】G06F17/30GK103440270SQ201310334235
【公開日】2013年12月11日 申請(qǐng)日期:2013年8月2日 優(yōu)先權(quán)日:2013年8月2日
【發(fā)明者】吳及, 呂萍, 徐偉, 何婷婷 申請(qǐng)人:清華大學(xué), 安徽科大訊飛信息科技股份有限公司