本發(fā)明涉及多媒體處理技術(shù)領(lǐng)域,具體涉及一種逆向爆音檢測方法及其裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)和多媒體技術(shù)的發(fā)展,互聯(lián)網(wǎng)為用戶提供的多媒體文件的種類和數(shù)量越來越多,豐富了人們的娛樂生活。在這些多媒體文件中,音頻文件隨處可見,如音樂、歌曲、戲曲等曲類音頻文件,相聲小品、演講、培訓(xùn)等語言類音頻文件等。
上述各類音頻文件中,由于音頻在生成、處理、傳輸、存儲等步驟的復(fù)雜性,有些音頻文件可能會出現(xiàn)爆音。爆音,從聽感上會產(chǎn)生一個突兀刺耳的爆點(diǎn)。出現(xiàn)爆音的原因有很多,可能是激光唱片(Compact Disk,CD)劃傷驗證或者音頻文件損壞、能量調(diào)整時的誤操作、或信號突然斷開或者被引入其它強(qiáng)干擾。還可能是音頻文件本身就存在爆音,音樂作者在創(chuàng)造音樂時將爆音作為一種音頻手段。可以將爆音分為正向爆音和逆向爆音,正向爆音即為音樂作者故意在音頻文件中添加的爆音,無需修正;逆向爆音即為音頻文件在傳播過程中產(chǎn)生的爆音,是一種錯誤,需要修正。
目前,有很多算法用來檢測爆音,但是由于爆音可能是正向爆音,也可能是逆向爆音,這些算法能檢測出音頻文件存在爆音,但是無法準(zhǔn)確區(qū)分是正向爆音還是逆向爆音,需要人工進(jìn)行二次確認(rèn),以便對存在逆向爆音的音頻文件進(jìn)行修正。對于音頻文件數(shù)量龐大的平臺,人工檢測逆向爆音費(fèi)時、費(fèi)力、成本高。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種逆向爆音檢測方法及其裝置,能夠智能、快速、準(zhǔn)確地檢測出逆向爆音。
本發(fā)明實施例第一方面提供一種逆向爆音檢測方法,包括:
確定待檢測的目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置;
查找與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件;
將所述目標(biāo)音頻文件的頻譜能量數(shù)字序列分別與每個備選音頻文件的頻譜能量數(shù)字序列進(jìn)行對比,將與所述目標(biāo)音頻文件的頻譜能量數(shù)字序列的相同概率達(dá)到預(yù)設(shè)概率值的備選音頻文件確定為同源音頻文件;
從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件;
根據(jù)所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音。
本發(fā)明實施例第二方面提供一種逆向爆音檢測裝置,包括:
突變信號確定單元,用于確定待檢測的目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置;
備選文件查找單元,用于查找與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件;
頻譜序列對比單元,用于將所述目標(biāo)音頻文件的頻譜能量數(shù)字序列分別與每個備選音頻文件的頻譜能量數(shù)字序列進(jìn)行對比,將與所述目標(biāo)音頻文件的頻譜能量數(shù)字序列的相同概率達(dá)到預(yù)設(shè)概率值的備選音頻文件確定為同源音頻文件;
同源文件確定單元,用于從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件;
逆向爆音確定單元,用于根據(jù)所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音。
在本發(fā)明實施例中,通過在確定目標(biāo)音頻文件存在突變時域信號以及存在突變時域信號的音頻位置后,查找與目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件,從備選音頻文件中確定同源音頻文件,從同源音頻文件中確定第一同源音頻文件和除第一同源音頻文件之外的第二同源音頻文件,并根據(jù)第一同源音頻文件的數(shù)量和第二同源音頻文件的數(shù)量確定目標(biāo)音頻文件存在的突變時域信號為逆向爆音,從而智能、快速、準(zhǔn)確地檢測出音頻文件中的逆向爆音。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為應(yīng)用本發(fā)明實施例的網(wǎng)絡(luò)架構(gòu)示意圖;
圖2為本發(fā)明實施例提供的一種逆向爆音檢測方法的流程示意圖;
圖3為本發(fā)明實施例提供的確定同源音頻文件的流程示意圖;
圖4為本發(fā)明實施例提供的一種逆向爆音檢測裝置的結(jié)構(gòu)示意圖;
圖5為圖4所示實施例提供的備選文件查找單元的結(jié)構(gòu)示意圖;
圖6為圖4所示實施例提供的同源文件確定單元的結(jié)構(gòu)示意圖;
圖7為本發(fā)明實施例提供的另一種逆向爆音檢測裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
在本發(fā)明實施例中使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本發(fā)明。在本發(fā)明實施例和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。還應(yīng)當(dāng)理解,本文中使用的術(shù)語“和/或”是指并包含一個或多個相關(guān)聯(lián)的列出項目的任何或所有可能組合。本文中字符“/”,一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。
請參見圖1,為應(yīng)用本發(fā)明實施例的網(wǎng)絡(luò)架構(gòu)示意圖,該網(wǎng)絡(luò)架構(gòu)示意圖包括四種用戶終端和服務(wù)器,用戶終端可以包括但不限于圖1所示的智能手機(jī)、個人計算機(jī)、平板電腦(Pad)和便攜式電腦,還可以包括智能可穿戴設(shè)備等支持音頻文件播放的電子設(shè)備。用戶終端上可安裝、運(yùn)行音頻文件客戶端,音頻文件客戶端通過網(wǎng)絡(luò)連接至服務(wù)器,建立與服務(wù)器之間的連接。其中,服務(wù)器可以是用戶終端上安裝、運(yùn)行的音頻文件客戶端對應(yīng)的音頻服務(wù)器,也可以是若干音頻文件客戶端對應(yīng)的音頻服務(wù)器組成的服務(wù)器集群,還可以是云計算服務(wù)中心。需要說明的是,圖1所示的用戶終端和服務(wù)器的形態(tài)、數(shù)量僅用于舉例,并不構(gòu)成對本發(fā)明實施例的限定。
結(jié)合圖1所示的網(wǎng)絡(luò)架構(gòu)示意圖,本發(fā)明實施例提供一種逆向爆音檢測方法及其裝置,可以應(yīng)用于檢測音頻文件是否存在逆向爆音,或區(qū)分音頻文件中的正向爆音、逆向爆音的場景中,例如,逆向爆音檢測裝置確定待檢測的目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置;所述逆向爆音檢測裝置查找與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件;所述逆向爆音檢測裝置將所述目標(biāo)音頻文件的頻譜能量數(shù)字序列分別與每個備選音頻文件的頻譜能量數(shù)字序列進(jìn)行對比,將與所述目標(biāo)音頻文件的頻譜能量數(shù)字序列的相同概率達(dá)到預(yù)設(shè)概率值的備選音頻文件確定為同源音頻文件;所述逆向爆音檢測裝置從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件;所述逆向爆音檢測裝置根據(jù)所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音的場景。本發(fā)明實施例在確定存在時域突變信號的目標(biāo)音頻文件后,查找與目標(biāo)音頻文件的同源音頻文件,并根據(jù)在同一音頻位置存在時域突變信號的同源音頻文件確定目標(biāo)音頻文件是否存在逆向爆音,無需人工對爆音進(jìn)行辨認(rèn),從而智能、快速、準(zhǔn)確地檢測出逆向爆音。
需要說明的是,本發(fā)明實施例中的逆向爆音檢測裝置可以為圖1所示服務(wù)器的一部分或全部,用于對音頻文件的逆向爆音或正向爆音進(jìn)行檢測,還可以用于在檢測出逆向爆音后對存在逆向爆音的音頻文件進(jìn)行修正。
本發(fā)明實施例中的音頻文件可以為音樂、歌曲、戲曲等曲類音頻文件,也可以為相聲小品、演講、培訓(xùn)等語言類音頻文件等,其音頻文件的格式支持在互聯(lián)網(wǎng)上播放,具體的格式在本發(fā)明實施例中不做限定。
下面將基于附圖1,并結(jié)合附圖2-附圖5對本發(fā)明實施例提供的逆向爆音檢測方法進(jìn)行詳細(xì)介紹。
請參見圖2,為本發(fā)明實施例提供的一種逆向爆音檢測方法的流程示意圖,該方法可包括步驟101-步驟105。
101,確定待檢測的目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置;
爆音,實際上是時域信號的突變,可以理解的是,突變時域信號即為爆音。
在第一種可能實現(xiàn)的方式中,逆向爆音檢測裝置根據(jù)音頻文件客戶端發(fā)送的突變指示消息確定待檢測的目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置。具體的,音頻文件客戶端在檢測到某個音頻文件存在突變時域信號時,向所述逆向爆音檢測裝置發(fā)送突變指示消息,所述突變指示消息指示該音頻文件存在所述突變時域信號,并攜帶存在所述突變時域信號的音頻位置。所述逆向爆音檢測裝置接收所述突變指示消息,并根據(jù)所述突變指示消息確定該音頻文件存在所述突變時域信號以及存在所述突變時域信號的音頻位置。其中,音頻文件客戶端為播放音頻文件的客戶端,所述音頻文件客戶端既可以播放對應(yīng)服務(wù)器提供的音頻文件,也可以播放該音頻文件客戶端所屬的本地音頻文件中的音頻文件。所述音頻文件客戶端可以將本地音頻文件掃描錄入,進(jìn)而播放。
在第二種可能實現(xiàn)的方式中,逆向爆音檢測裝置自主檢測目標(biāo)音頻文件是否存在突變時域信號。具體的,所述逆向爆音檢測裝置根據(jù)第一預(yù)設(shè)算法對所述目標(biāo)音頻文件進(jìn)行處理得到所述目標(biāo)音頻文件的多幀信號。所述第一預(yù)設(shè)算法包括解碼分通道、分幀、能量信息計算。所述逆向爆音檢測裝置將所述目標(biāo)音頻文件解碼為44k 16bit雙通道音頻文件,針對左右通道分別處理。44k是指記錄頻率或采樣頻率,16bit是指以2進(jìn)制為單位的記錄長度,或一個采樣點(diǎn)的長度。假設(shè)處理的通道有k個采樣點(diǎn)xi,i∈[1,k],以t為幀移和幀長對單通道音頻進(jìn)行分幀,得到n幀信號,n=k/t(多余不足一幀的舍棄)。采用幀移與幀長相等的方案,這樣可以減少計算量。所述逆向爆音檢測裝置計算所述目標(biāo)音頻文件的多幀信號中每幀信號的能量信息,所述能量信息包括能量均值mi,i∈[1,n]和能量標(biāo)準(zhǔn)差si,i∈[1,n],具體計算公式如下:
若目標(biāo)幀信號的能量信息滿足預(yù)設(shè)突變條件,則確定所述目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置,所述目標(biāo)幀信號為所述多幀信號中的一個。其中,所述預(yù)設(shè)突變條件如下:
上述第一個公式中的p1、p2為常值參數(shù),具體數(shù)值由所述逆向爆音檢測裝置設(shè)定,在此不做限定。該公式用于找出能量明顯比左右兩邊的幀能量有突變的幀信號。上述第二公式中的p3為常值參數(shù),具體數(shù)值由所述逆向爆音檢測裝置設(shè)定,在此不做限定。該公式用于說明該幀信號非平滑,該幀信號內(nèi)有明顯的非平緩?fù)蛔?。若某個幀信號的能量信息滿足上述預(yù)設(shè)突變條件,則記錄該幀信號的幀標(biāo)識(IDentity),并記錄對應(yīng)的通道,可以將該通道確定為有問題的通道,即確定有問題的聲道是左通道還是右通道,還是兩個通道都有問題。
上述兩種可能實現(xiàn)的方式均以一個突變時域信號為例進(jìn)行介紹,實際情況中,一個音頻文件可能存在多個突變時域信號,對于多個的情況,也可同樣按照上述兩種可能實現(xiàn)的方式進(jìn)行處理,分別確定每個突變時域信號的音頻位置。在第一種可能實現(xiàn)的方式中,音頻文件客戶端可按照第二種可能實現(xiàn)的方式中的算法檢測是否存在突變時域信號。在第二種可能實現(xiàn)的方式中,p1、p2、p3可以設(shè)置較小,具體數(shù)值由所述逆向爆音檢測裝置設(shè)定,在此不做限定,設(shè)置較小可以盡量保證將可能有問題的幀信號都找出來,此時檢測爆音的準(zhǔn)確率較低,可通過后續(xù)過程提高準(zhǔn)確率。上述兩種可能實現(xiàn)的方式中的音頻位置均用于指示所述目標(biāo)音頻文件在哪個聲道的哪個幀信號上存在突變時域信號。
102,查找與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件;
具體的,所述逆向爆音檢測裝置從所述目標(biāo)音頻文件所屬音頻文件客戶端對應(yīng)的音頻文件數(shù)據(jù)庫和/或所述目標(biāo)音頻文件所屬的本地音頻文件庫中查找與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件。需要說明的是,此時查找的備選音頻文件的數(shù)量不止一個,而是一個集合,包括所有與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的音頻文件。
首先,所述逆向爆音檢測裝置從所述目標(biāo)音頻文件所屬音頻文件客戶端對應(yīng)的音頻文件數(shù)據(jù)庫和/或所述目標(biāo)音頻文件所屬的本地音頻文件庫中查找與所述目標(biāo)音頻文件的標(biāo)簽信息相同的標(biāo)簽音頻文件。所述標(biāo)簽信息包括音頻文件名稱(例如音樂名稱、歌曲名稱等)、音頻文件作者(例如音樂創(chuàng)作者、演唱者、歌手等)和音頻文件的時間長度(例如音樂的時間長度、歌曲的時間長度等)。通常,所述標(biāo)簽信息用于標(biāo)識音頻文件,可攜帶在對應(yīng)的音頻文件中,對音頻文件進(jìn)行識別便能獲取。需要說明的是,此時查找的標(biāo)簽音頻文件不止一個,而是一個集合,包括所有與所述目標(biāo)音頻文件的標(biāo)簽信息相同的音頻文件。
接著,所述逆向爆音檢測裝置根據(jù)第二預(yù)設(shè)算法對每個標(biāo)簽音頻文件和所述目標(biāo)音頻文件進(jìn)行處理得到所述每個標(biāo)簽音頻文件的時長信息和所述目標(biāo)音頻文件的時長信息,所述時長信息包括分幀信號數(shù)量。其中,所述第二預(yù)設(shè)算法包括解碼、分幀。所述第二預(yù)設(shè)算法與所述第一預(yù)設(shè)算法所采用的參數(shù)存在差別。所述逆向爆音檢測裝置將所述目標(biāo)音頻文件和每個標(biāo)簽音頻文件解碼為8k 16bit脈沖編碼調(diào)制(pulse-code modulation,pcm)格式的音頻文件,以1024個采樣點(diǎn)為幀長,以32個采樣點(diǎn)為幀移進(jìn)行分幀,得到所述目標(biāo)音頻文件的分幀信號數(shù)量和每個標(biāo)簽音頻文件的分幀信號數(shù)量。
所述逆向爆音檢測裝置判斷是否存在與所述目標(biāo)音頻文件的分幀信號數(shù)量相同的標(biāo)簽音頻文件,并將與所述目標(biāo)音頻文件的分幀信號數(shù)量相同的標(biāo)簽音頻文件確定為備選音頻文件。
103,將所述目標(biāo)音頻文件的頻譜能量數(shù)字序列分別與每個備選音頻文件的頻譜能量數(shù)字序列進(jìn)行對比,將與所述目標(biāo)音頻文件的頻譜能量數(shù)字序列的相同概率達(dá)到預(yù)設(shè)概率值的備選音頻文件確定為同源音頻文件;
具體的,所述逆向爆音檢測裝置在確定備選音頻文件后,根據(jù)第三預(yù)設(shè)算法對每個備選音頻文件和所述目標(biāo)音頻文件進(jìn)行處理得到所述每個備選音頻文件的頻譜能量數(shù)字序列和所述目標(biāo)音頻文件的頻譜能量數(shù)字序列。其中,所述第三預(yù)設(shè)算法包括分頻、能量頻譜均值計算、數(shù)字序列對比。
由于每個備選音頻文件的分幀信號數(shù)量與所述目標(biāo)音頻文件的分幀信號數(shù)量相同,因此所述逆向爆音檢測裝置對每個備選音頻文件和所述目標(biāo)音頻文件的每個幀信號進(jìn)行傅里葉變換得到每個備選音頻文件的頻譜能量和所述目標(biāo)音頻文件的頻譜能量,該能量頻譜的范圍為0-4k。所述逆向爆音檢測裝置將每個備選音頻文件的頻譜能量和所述目標(biāo)音頻文件的頻譜能量平均分到32個頻段,并計算每個頻段的能量頻譜均值,并將能量頻譜均值作為平均能量。所述逆向爆音檢測裝置將某個頻段與上一幀信號對應(yīng)的頻段進(jìn)行比較,比前一幀信號大則記為“1”,小則記為“0”,這樣每一幀信號就會得到32個bit值,用于表示一幀信號,將所有幀信號的bit值連在一起,就得到每個備選音頻文件的頻譜能量數(shù)字序列和所述目標(biāo)音頻文件的頻譜能量數(shù)字序列。此時,每個備選音頻文件的頻譜能量數(shù)字序列與所述目標(biāo)音頻文件的頻譜能量數(shù)字序列的序列長度相同。頻譜能量數(shù)字序列為一串“0”和“1”組成的數(shù)字序列。
所述逆向爆音檢測裝置將所述目標(biāo)音頻文件的頻譜能量數(shù)字序列分別與每個備選音頻文件的頻譜能量數(shù)字序列進(jìn)行對比,即將所述目標(biāo)音頻文件的某個位置上的bit值與備選音頻文件的該位置上的bit值進(jìn)行一一對比,若兩者都為“1”或都為“0”,則認(rèn)為相同,否則認(rèn)為不相同。所述逆向爆音檢測裝置將與所述目標(biāo)音頻文件的頻譜能量數(shù)字序列的相同概率達(dá)到預(yù)設(shè)概率值的備選音頻文件確定為同源音頻文件。假設(shè)頻譜能量數(shù)字序列的總個數(shù)為p,相同的個數(shù)為q,則相同概率為q/p達(dá)到所述預(yù)設(shè)概率值,則確定為同源音頻文件。其中,所述預(yù)設(shè)概率值可取95%,剩余的5%的誤差用于兼容編解碼、爆音等問題帶來的頻譜差異。
104,從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件;
具體的,所述逆向爆音檢測裝置在確定同源音頻文件之后,對每個同源音頻文件進(jìn)行檢測,判斷每個同源音頻文件在所述目標(biāo)音頻文件存在突變時域信號的音頻位置是否也存在突變時域信號。
所述逆向爆音檢測裝置根據(jù)第四預(yù)設(shè)算法對每個同源音頻文件和所述目標(biāo)音頻文件進(jìn)行處理得到所述每個同源音頻文件在所述音頻位置的能量信息和所述目標(biāo)音頻文件在所述音頻位置的能量信息。所述第四預(yù)設(shè)算法包括解碼、歸一化、能量信息計算。
所述目標(biāo)音頻文件以x為例,某個同源音頻文件以y為例,所述逆向爆音檢測裝置將x,y解碼為44k 16bit單通道音頻文件,只保留有問題的那個通道。假設(shè)該通道有k個采樣點(diǎn)將兩個音頻文件的采樣點(diǎn)歸一化得到xi和yi,具體如下:
其中,p4為較小的值,具體數(shù)值由所述逆向爆音檢測裝置設(shè)定,在此不做限定。這樣便將兩個音頻文件的能量歸一化到同一水平線上。假設(shè)x存在時域突變信號的音頻位置為幀信號o,所述逆向爆音檢測裝置計算幀信號o上的能量信息,所述能量信息包括能量均值mo和能量標(biāo)準(zhǔn)差so,x,y的能量信息具體如下:
所述逆向爆音檢測裝置根據(jù)所述每個同源音頻文件在所述音頻位置的能量信息和所述目標(biāo)音頻文件在所述音頻位置的能量信息從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件。具體的,所述逆向爆音檢測裝置檢測所述每個同源音頻文件在所述音頻位置的能量信息與所述目標(biāo)音頻文件在所述音頻位置的能量信息是否滿足預(yù)設(shè)差值條件;將滿足所述預(yù)設(shè)差值條件的同源音頻文件確定為在所述音頻位置存在突變時域信號的第一同源音頻文件,并確定除所述第一同源音頻文件之外的第二同源音頻文件。其中,所述預(yù)設(shè)差值條件為:
若某個同源音頻文件的能量信息滿足所述預(yù)設(shè)差值條件,則表明該同源音頻文件在所述音頻位置也存在突變時域信號,可認(rèn)為該同源音頻文件存在與所述目標(biāo)音頻文件同樣的問題,將其確定為第一同源音頻文件;反之則表明該同源音頻文件在所述音頻位置不存在突變時域信號,可認(rèn)為該同源音頻文件不存在與所述目標(biāo)音頻文件同樣的問題,將其確定為第二同源音頻文件。
需要說明的是,此時步驟103確定的同源音頻文件不止一個,而是一個集合,包括相同概率達(dá)到所述預(yù)設(shè)概率值的所有的備選音頻文件。同理步驟104確定的第一同源音頻文件、第二同源音頻文件也是一個集合。
需要說明的是,步驟103針對所述目標(biāo)音頻文件存在所述突變時域信號的音頻位置進(jìn)行介紹,即針對一個音頻位置進(jìn)行介紹,若存在多個突變時域信號,則音頻位置有多個,只要某個同源音頻文件中在與所述目標(biāo)音頻文件的同一音頻位置存在突變時域信號,即可確定該同源音頻文件為第一同源音頻文件。
請參見圖3,為本發(fā)明實施例提供的確定同源音頻文件的流程示意圖,對步驟102-104進(jìn)行了概括,形象地展現(xiàn)從備選音頻文件到第一同源音頻文件和第二同源音頻文件的過程,即經(jīng)過層層篩選得到第一同源音頻文件和第二同源音頻文件。
105,根據(jù)所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音;
具體的,由于所述目標(biāo)音頻文件所屬音頻文件客戶端對應(yīng)的音頻文件數(shù)據(jù)庫和所述目標(biāo)音頻文件所屬的本地音頻文件庫中的音頻文件的數(shù)量較多,因此所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量也相對較多,使得所述逆向爆音檢測裝置根據(jù)所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量確定的所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音的準(zhǔn)確性較高。
在一種可能實現(xiàn)的方式中,所述逆向爆音檢測裝置檢測所述第一同源音頻文件的數(shù)量是否小于第一閾值且所述第二同源音頻文件的數(shù)量是否大于第二閾值。其中,所述第一閾值可為k1,其具體數(shù)值大小由所述逆向爆音檢測裝置確定,在此不做限定。所述第二閾值可為0。可以理解的是,所述逆向爆音檢測裝置檢測有問題的同源音頻文件的數(shù)量是否比較小,且存在沒有問題的同源音頻文件的數(shù)量。若所述第一同源音頻文件的數(shù)量小于所述第一閾值且所述第二同源音頻文件的數(shù)量大于所述第二閾值,則確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音。在確定所述目標(biāo)音頻文件存在逆向爆音后,所述逆向爆音檢測裝置可向所述目標(biāo)音頻文件所屬的音頻文件客戶端發(fā)送更改信息,所述更改信息包括從所述第二同源音頻文件中選擇的一個音頻文件,所述更改信息用于指示所述目標(biāo)音頻文件所屬的音頻文件客戶端將所述目標(biāo)音頻文件更改為所選擇的音頻文件,從而減少逆向爆音對目標(biāo)音頻文件的影響,提升用戶體驗。
若所述第二同源音頻文件的數(shù)量等于所述第二閾值,即不存在所述第二同源音頻文件,則確定所述目標(biāo)音頻文件存在的所述突變時域信號為正向爆音,此時所述逆向爆音檢測裝置可不做任何處理。
若所述第一同源音頻文件的數(shù)量大于所述第一閾值且所述第二同源音頻文件的數(shù)量大于所述第二閾值,即有問題的同源音頻文件的數(shù)量較多,沒有問題的同源音頻文件的數(shù)量也較多,則可認(rèn)為所述目標(biāo)音頻文件有可能出現(xiàn)多個版本,需要轉(zhuǎn)人工判斷。
在一種可能實現(xiàn)的方式中,所述逆向爆音檢測裝置檢測所述第一同源音頻文件的數(shù)量與所述第二同源音頻文件的數(shù)量的比值是否小于預(yù)設(shè)比值??梢岳斫獾氖牵瞿嫦虮魴z測裝置檢測有問題的同源音頻文件的數(shù)量是否比較小,且沒有問題的同源音頻文件的數(shù)量是否比較多。其中,所述預(yù)設(shè)比值由所述逆向爆音檢測裝置設(shè)定,具體數(shù)值在此不做限定。若所述第一同源音頻文件的數(shù)量與所述第二同源音頻文件的數(shù)量的比值小于所述預(yù)設(shè)比值,則確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音。
隨著數(shù)據(jù)庫中的音頻文件的數(shù)量不斷增大,所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量也在不斷增大,由于樣本越來越多,檢測的效果擇越來越準(zhǔn)。當(dāng)后續(xù)每次有存在突變時域信號的音頻文件后,則先在對應(yīng)的同源音頻文件中查找是否存在第一同源音頻文件,若存在,則可以利用之前保留的信息直接給出準(zhǔn)確結(jié)果。
需要說明的是,本發(fā)明實施例以目標(biāo)音頻文件存在的一個突變時域信號為例進(jìn)行介紹,對于多個突變時域信號的情況可在本發(fā)明實施例的基礎(chǔ)上進(jìn)行擴(kuò)展。
在本發(fā)明實施例中,通過在確定目標(biāo)音頻文件存在突變時域信號以及存在突變時域信號的音頻位置后,查找與目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件,從備選音頻文件中確定同源音頻文件,從同源音頻文件中確定第一同源音頻文件和除第一同源音頻文件之外的第二同源音頻文件,并根據(jù)第一同源音頻文件的數(shù)量和第二同源音頻文件的數(shù)量確定目標(biāo)音頻文件存在的突變時域信號為逆向爆音,從而智能、快速、準(zhǔn)確地檢測出音頻文件中的逆向爆音。
請參見圖4,為本發(fā)明實施例提供的一種逆向爆音檢測裝置的結(jié)構(gòu)示意圖。圖4所示的逆向爆音檢測裝置40包括突變信號確定單元401、備選文件查找單元402、頻譜序列對比單元403、同源文件確定單元404和逆向爆音確定單元405。
突變信號確定單元401,用于確定待檢測的目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置;
在第一種可能實現(xiàn)的方式中,所述突變信號確定單元401具體用于根據(jù)音頻文件客戶端發(fā)送的突變指示消息確定待檢測的目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置。具體的,音頻文件客戶端在檢測到某個音頻文件存在突變時域信號時,向所述逆向爆音檢測裝置40發(fā)送突變指示消息,所述突變指示消息指示該音頻文件存在所述突變時域信號,并攜帶存在所述突變時域信號的音頻位置。所述逆向爆音檢測裝置40接收所述突變指示消息,所述突變信號確定單元401根據(jù)所述突變指示消息確定該音頻文件存在所述突變時域信號以及存在所述突變時域信號的音頻位置。其中,音頻文件客戶端為播放音頻文件的客戶端,所述音頻文件客戶端既可以播放對應(yīng)服務(wù)器提供的音頻文件,也可以播放該音頻文件客戶端所屬的本地音頻文件中的音頻文件。所述音頻文件客戶端可以將本地音頻文件掃描錄入,進(jìn)而播放。
在第二種可能實現(xiàn)的方式中,所述突變信號確定單元401自主檢測目標(biāo)音頻文件是否存在突變時域信號。具體的,所述突變信號確定單元401根據(jù)第一預(yù)設(shè)算法對所述目標(biāo)音頻文件進(jìn)行處理得到所述目標(biāo)音頻文件的多幀信號。所述第一預(yù)設(shè)算法包括解碼分通道、分幀、能量信息計算。所述突變信號確定單元401將所述目標(biāo)音頻文件解碼為44k 16bit雙通道音頻文件,針對左右通道分別處理。44k是指記錄頻率或采樣頻率,16bit是指以2進(jìn)制為單位的記錄長度,或一個采樣點(diǎn)的長度。假設(shè)處理的通道有k個采樣點(diǎn)xi,i∈[1,k],以t為幀移與幀長對單通道音頻進(jìn)行分幀,得到n幀信號,n=k/t(多余不足一幀的舍棄)。所述突變信號確定單元401計算所述目標(biāo)音頻文件的多幀信號中每幀信號的能量信息,所述能量信息包括能量均值mi,i∈[1,n]和能量標(biāo)準(zhǔn)差si,i∈[1,n],具體計算公式如下:
若目標(biāo)幀信號的能量信息滿足預(yù)設(shè)突變條件,則確定所述目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置,所述目標(biāo)幀信號為所述多幀信號中的一個。其中,所述預(yù)設(shè)突變條件如下:
上述第一個公式中的p1、p2為常值參數(shù),具體數(shù)值由所述逆向爆音檢測裝置40設(shè)定,在此不做限定。該公式用于找出能量明顯比左右兩邊的幀能量有突變的幀信號。上述第二公式中的p3為常值參數(shù),具體數(shù)值由所述逆向爆音檢測裝置40設(shè)定,在此不做限定。該公式用于說明該幀信號非平滑,該幀信號內(nèi)有明顯的非平緩?fù)蛔?。若某個幀信號的能量信息滿足上述預(yù)設(shè)突變條件,則記錄該幀信號的幀標(biāo)識(IDentity),并記錄對應(yīng)的通道,可以將該通道確定為有問題的通道,即確定有問題的聲道是左通道還是右通道,還是兩個通道都有問題。
上述兩種可能實現(xiàn)的方式均以一個突變時域信號為例進(jìn)行介紹,實際情況中,一個音頻文件可能存在多個突變時域信號,對于多個的情況,也可同樣按照上述兩種可能實現(xiàn)的方式進(jìn)行處理,分別確定每個突變時域信號的音頻位置。在第一種可能實現(xiàn)的方式中,音頻文件客戶端可按照第二種可能實現(xiàn)的方式中的算法檢測是否存在突變時域信號。在第二種可能實現(xiàn)的方式中,p1、p2、p3可以設(shè)置較小,具體數(shù)值由所述逆向爆音檢測裝置40設(shè)定,在此不做限定,設(shè)置較小可以盡量保證將可能有問題的幀信號都找出來,此時檢測爆音的準(zhǔn)確率較低,可通過后續(xù)過程提高準(zhǔn)確率。上述兩種可能實現(xiàn)的方式中的音頻位置均用于指示所述目標(biāo)音頻文件在哪個聲道的哪個幀信號上存在突變時域信號。
備選文件查找單元402,用于查找與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件;
具體實現(xiàn)中,所述備選文件查找單元402從所述目標(biāo)音頻文件所屬音頻文件客戶端對應(yīng)的音頻文件數(shù)據(jù)庫和/或所述目標(biāo)音頻文件所屬的本地音頻文件庫中查找與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件。需要說明的是,此時查找的備選音頻文件的數(shù)量不止一個,而是一個集合,包括所有與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的音頻文件。
請參見圖5,為圖4所示實施例提供的備選文件查找單元的結(jié)構(gòu)示意圖,所述備選文件查找單元402包括標(biāo)簽文件查找單元4021、標(biāo)簽文件處理單元4022和備選文件確定單元4023。
具體實現(xiàn)中,所述標(biāo)簽文件查找單元4021從所述目標(biāo)音頻文件所屬音頻文件客戶端對應(yīng)的音頻文件數(shù)據(jù)庫和/或所述目標(biāo)音頻文件所屬的本地音頻文件庫中查找與所述目標(biāo)音頻文件的標(biāo)簽信息相同的標(biāo)簽音頻文件。所述標(biāo)簽信息包括音頻文件名稱(例如音樂名稱、歌曲名稱等)、音頻文件作者(例如音樂創(chuàng)作者、演唱者、歌手等)和音頻文件的時間長度(例如音樂的時間長度、歌曲的時間長度等)。通常,所述標(biāo)簽信息用于標(biāo)識音頻文件,可攜帶在對應(yīng)的音頻文件中,對音頻文件進(jìn)行識別便能獲取。需要說明的是,此時查找的標(biāo)簽音頻文件不止一個,而是一個集合,包括所有與所述目標(biāo)音頻文件的標(biāo)簽信息相同的音頻文件。
所述標(biāo)簽文件處理單元4022根據(jù)第二預(yù)設(shè)算法對每個標(biāo)簽音頻文件和所述目標(biāo)音頻文件進(jìn)行處理得到所述每個標(biāo)簽音頻文件的時長信息和所述目標(biāo)音頻文件的時長信息,所述時長信息包括分幀信號數(shù)量。其中,所述第二預(yù)設(shè)算法包括解碼、分幀。所述第二預(yù)設(shè)算法與所述第一預(yù)設(shè)算法所采用的參數(shù)存在差別。所述標(biāo)簽文件處理單元4022將所述目標(biāo)音頻文件和每個標(biāo)簽音頻文件解碼為8k 16bit脈沖編碼調(diào)制(pulse-code modulation,pcm)格式的音頻文件,以1024個采樣點(diǎn)為幀長,以32個采樣點(diǎn)為幀移進(jìn)行分幀,得到所述目標(biāo)音頻文件的分幀信號數(shù)量和每個標(biāo)簽音頻文件的分幀信號數(shù)量。
所述備選文件確定單元4023判斷是否存在與所述目標(biāo)音頻文件的分幀信號數(shù)量相同的標(biāo)簽音頻文件,并將與所述目標(biāo)音頻文件的分幀信號數(shù)量相同的標(biāo)簽音頻文件確定為備選音頻文件。
頻譜序列對比單元403,用于將所述目標(biāo)音頻文件的頻譜能量數(shù)字序列分別與每個備選音頻文件的頻譜能量數(shù)字序列進(jìn)行對比,將與所述目標(biāo)音頻文件的頻譜能量數(shù)字序列的相同概率達(dá)到預(yù)設(shè)概率值的備選音頻文件確定為同源音頻文件;
具體實現(xiàn)中,所述逆向爆音檢測裝置40還包括備選文件處理單元,未在圖4中標(biāo)明。在確定備選音頻文件后,所述備選文件處理單元根據(jù)第三預(yù)設(shè)算法對每個備選音頻文件和所述目標(biāo)音頻文件進(jìn)行處理得到所述每個備選音頻文件的頻譜能量數(shù)字序列和所述目標(biāo)音頻文件的頻譜能量數(shù)字序列。其中,所述第三預(yù)設(shè)算法包括分頻、能量頻譜均值計算、數(shù)字序列對比。
由于每個備選音頻文件的分幀信號數(shù)量與所述目標(biāo)音頻文件的分幀信號數(shù)量相同,因此所述備選文件處理單元對每個備選音頻文件和所述目標(biāo)音頻文件的每個幀信號進(jìn)行傅里葉變換得到每個備選音頻文件的頻譜能量和所述目標(biāo)音頻文件的頻譜能量,該能量頻譜的范圍為0-4k。所述備選文件處理單元將每個備選音頻文件的頻譜能量和所述目標(biāo)音頻文件的頻譜能量平均分到32個頻段,并計算每個頻段的能量頻譜均值,并將能量頻譜均值作為平均能量。所述逆向爆音檢測裝置將某個頻段與上一幀信號對應(yīng)的頻段進(jìn)行比較,比前一幀信號大則記為“1”,小則記為“0”,這樣每一幀信號就會得到32個bit值,用于表示一幀信號,將所有幀信號的bit值連在一起,就得到每個備選音頻文件的頻譜能量數(shù)字序列和所述目標(biāo)音頻文件的頻譜能量數(shù)字序列。此時,每個備選音頻文件的頻譜能量數(shù)字序列與所述目標(biāo)音頻文件的頻譜能量數(shù)字序列的序列長度相同。頻譜能量數(shù)字序列為一串“0”和“1”組成的數(shù)字序列。
具體實現(xiàn)中,所述頻譜序列對比單元403將所述目標(biāo)音頻文件的頻譜能量數(shù)字序列分別與每個備選音頻文件的頻譜能量數(shù)字序列進(jìn)行對比,即將所述目標(biāo)音頻文件的某個位置上的bit值與備選音頻文件的該位置上的bit值進(jìn)行一一對比,若兩者都為“1”或都為“0”,則認(rèn)為相同,否則認(rèn)為不相同。所述頻譜序列對比單元403將與所述目標(biāo)音頻文件的頻譜能量數(shù)字序列的相同概率達(dá)到預(yù)設(shè)概率值的備選音頻文件確定為同源音頻文件。假設(shè)頻譜能量數(shù)字序列的總個數(shù)為p,相同的個數(shù)為q,則相同概率為q/p達(dá)到所述預(yù)設(shè)概率值,則確定為同源音頻文件。其中,所述預(yù)設(shè)概率值可取95%,剩余的5%的誤差用于兼容編解碼、爆音等問題帶來的頻譜差異。
同源文件確定單元404,用于從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件;
具體實現(xiàn)中,所述頻譜序列對比單元403在確定同源音頻文件之后,所述同源文件確定單元404對每個同源音頻文件進(jìn)行檢測,判斷每個同源音頻文件在所述目標(biāo)音頻文件存在突變時域信號的音頻位置是否也存在突變時域信號。
請參見圖6,為圖4所示實施例提供的同源文件確定單元的結(jié)構(gòu)示意圖,所述同源文件確定單元404包括同源文件處理單元4041和同源突變確定單元4042。
具體實現(xiàn)中,所述同源文件處理單元4041根據(jù)第四預(yù)設(shè)算法對每個同源音頻文件和所述目標(biāo)音頻文件進(jìn)行處理得到所述每個同源音頻文件在所述音頻位置的能量信息和所述目標(biāo)音頻文件在所述音頻位置的能量信息。所述第四預(yù)設(shè)算法包括解碼、歸一化、能量信息計算。
所述目標(biāo)音頻文件以x為例,某個同源音頻文件以y為例,所述同源文件處理單元4041將x,y解碼為44k 16bit單通道音頻文件,只保留有問題的那個通道。假設(shè)該通道有k個采樣點(diǎn)將兩個音頻文件的采樣點(diǎn)歸一化得到xi和yi,具體如下:
其中,p4為較小的值,具體數(shù)值由所述逆向爆音檢測裝置40設(shè)定,在此不做限定。這樣便將兩個音頻文件的能量歸一化到同一水平線上。假設(shè)x存在時域突變信號的音頻位置為幀信號o,所述同源文件處理單元4041計算幀信號o上的能量信息,所述能量信息包括能量均值mo和能量標(biāo)準(zhǔn)差so,x,y的能量信息具體如下:
所述同源突變確定單元4042根據(jù)所述每個同源音頻文件在所述音頻位置的能量信息和所述目標(biāo)音頻文件在所述音頻位置的能量信息從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件。具體的,所述同源突變確定單元4042檢測所述每個同源音頻文件在所述音頻位置的能量信息與所述目標(biāo)音頻文件在所述音頻位置的能量信息是否滿足預(yù)設(shè)差值條件;將滿足所述預(yù)設(shè)差值條件的同源音頻文件確定為在所述音頻位置存在突變時域信號的第一同源音頻文件,并確定除所述第一同源音頻文件之外的第二同源音頻文件。其中,所述預(yù)設(shè)差值條件為:
若某個同源音頻文件的能量信息滿足所述預(yù)設(shè)差值條件,則表明該同源音頻文件在所述音頻位置也存在突變時域信號,可認(rèn)為該同源音頻文件存在與所述目標(biāo)音頻文件同樣的問題,將其確定為第一同源音頻文件;反之則表明該同源音頻文件在所述音頻位置不存在突變時域信號,可認(rèn)為該同源音頻文件不存在與所述目標(biāo)音頻文件同樣的問題,將其確定為第二同源音頻文件。
逆向爆音確定單元405,用于根據(jù)所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音;
具體實現(xiàn)中,由于所述目標(biāo)音頻文件所屬音頻文件客戶端對應(yīng)的音頻文件數(shù)據(jù)庫和所述目標(biāo)音頻文件所屬的本地音頻文件庫中的音頻文件的數(shù)量較多,因此所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量也相對較多,使得所述逆向爆音確定單元405根據(jù)所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量確定的所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音的準(zhǔn)確性較高。
在一種可能實現(xiàn)的方式中,所述逆向爆音確定單元405檢測所述第一同源音頻文件的數(shù)量是否小于第一閾值且所述第二同源音頻文件的數(shù)量是否大于第二閾值。其中,所述第一閾值可為k1,其具體數(shù)值大小由所述逆向爆音檢測裝置40確定,在此不做限定。所述第二閾值可為0。可以理解的是,所述逆向爆音確定單元405檢測有問題的同源音頻文件的數(shù)量是否比較小,且存在沒有問題的同源音頻文件的數(shù)量。若所述第一同源音頻文件的數(shù)量小于所述第一閾值且所述第二同源音頻文件的數(shù)量大于所述第二閾值,則確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音。在確定所述目標(biāo)音頻文件存在逆向爆音后,所述逆向爆音檢測裝置40可向所述目標(biāo)音頻文件所屬的音頻文件客戶端發(fā)送更改信息,所述更改信息包括從所述第二同源音頻文件中選擇的一個音頻文件,所述更改信息用于指示所述目標(biāo)音頻文件所屬的音頻文件客戶端將所述目標(biāo)音頻文件更改為所選擇的音頻文件,從而減少逆向爆音對目標(biāo)音頻文件的影響,提升用戶體驗。
若所述第二同源音頻文件的數(shù)量等于所述第二閾值,即不存在所述第二同源音頻文件,則確定所述目標(biāo)音頻文件存在的所述突變時域信號為正向爆音,此時所述逆向爆音檢測裝置可不做任何處理。
若所述第一同源音頻文件的數(shù)量大于所述第一閾值且所述第二同源音頻文件的數(shù)量大于所述第二閾值,即有問題的同源音頻文件的數(shù)量較多,沒有問題的同源音頻文件的數(shù)量也較多,則可認(rèn)為所述目標(biāo)音頻文件有可能出現(xiàn)多個版本,需要轉(zhuǎn)人工判斷。
在一種可能實現(xiàn)的方式中,所述逆向爆音確定單元405檢測所述第一同源音頻文件的數(shù)量與所述第二同源音頻文件的數(shù)量的比值是否小于預(yù)設(shè)比值??梢岳斫獾氖牵瞿嫦虮魴z測裝置檢測有問題的同源音頻文件的數(shù)量是否比較小,且沒有問題的同源音頻文件的數(shù)量是否比較多。其中,所述預(yù)設(shè)比值由所述逆向爆音檢測裝置設(shè)定,具體數(shù)值在此不做限定。若所述第一同源音頻文件的數(shù)量與所述第二同源音頻文件的數(shù)量的比值小于所述預(yù)設(shè)比值,則確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音。
隨著數(shù)據(jù)庫中的音頻文件的數(shù)量不斷增大,所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量也在不斷增大,由于樣本越來越多,檢測的效果擇越來越準(zhǔn)。當(dāng)后續(xù)每次有存在突變時域信號的音頻文件后,則先在對應(yīng)的同源音頻文件中查找是否存在第一同源音頻文件,若存在,則可以利用之前保留的信息直接給出準(zhǔn)確結(jié)果。
需要說明的是,本發(fā)明實施例以目標(biāo)音頻文件存在的一個突變時域信號為例進(jìn)行介紹,對于多個突變時域信號的情況可在本發(fā)明實施例的基礎(chǔ)上進(jìn)行擴(kuò)展。
在本發(fā)明實施例中,通過在確定目標(biāo)音頻文件存在突變時域信號以及存在突變時域信號的音頻位置后,查找與目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件,從備選音頻文件中確定同源音頻文件,從同源音頻文件中確定第一同源音頻文件和除第一同源音頻文件之外的第二同源音頻文件,并根據(jù)第一同源音頻文件的數(shù)量和第二同源音頻文件的數(shù)量確定目標(biāo)音頻文件存在的突變時域信號為逆向爆音,從而智能、快速、準(zhǔn)確地檢測出音頻文件中的逆向爆音。
其中,上述各個單元可以是處理器或控制器,例如可以是中央處理器(Central Processing Unit,CPU),通用處理器,數(shù)字信號處理器(Digital Signal Processor,DSP),專用集成電路(Application-Specific Integrated Circuit,ASIC),現(xiàn)場可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)或者其他可編程邏輯器件、晶體管邏輯器件、硬件部件或者其任意組合。其可以實現(xiàn)或執(zhí)行結(jié)合本發(fā)明公開內(nèi)容所描述的各種示例性的邏輯方框,模塊和電路。所述處理器也可以是實現(xiàn)計算功能的組合,例如包含一個或多個微處理器組合,DSP和微處理器的組合等等。
當(dāng)上述各個單元為處理器時,本發(fā)明實施例所涉及的逆向爆音檢測裝置可以為圖7所示的逆向爆音檢測裝置。圖7所示的逆向爆音檢測裝置包括處理器701、通信接口702、存儲器703和總線704。
其中,存儲器703可以是一個存儲裝置,也可以是多個存儲元件的統(tǒng)稱,且用于存儲可執(zhí)行程序代碼或應(yīng)用程序運(yùn)行裝置運(yùn)行所需要參數(shù)、數(shù)據(jù)等。且存儲器703可以包括隨機(jī)存儲器(Random Access Memory,RAM),也可以包括非易失性存儲器(non-volatile memory),例如磁盤存儲器,閃存(Flash)等。
總線704可以是工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(Industry Standard Architecture,ISA)總線、外部設(shè)備互連(Peripheral Component,PCI)總線或擴(kuò)展工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(Extended Industry Standard Architecture,EISA)總線等。該總線704可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖7中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
其中,處理器701用于執(zhí)行如下操作步驟:
確定待檢測的目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置;
查找與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件;
將所述目標(biāo)音頻文件的頻譜能量數(shù)字序列分別與每個備選音頻文件的頻譜能量數(shù)字序列進(jìn)行對比,將與所述目標(biāo)音頻文件的頻譜能量數(shù)字序列的相同概率達(dá)到預(yù)設(shè)概率值的備選音頻文件確定為同源音頻文件;
從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件;
根據(jù)所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音。
其中,處理器701執(zhí)行根據(jù)所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音時,具體執(zhí)行以下步驟:
檢測所述第一同源音頻文件的數(shù)量是否小于第一閾值且所述第二同源音頻文件的數(shù)量是否大于第二閾值;
若所述第一同源音頻文件的數(shù)量小于所述第一閾值且所述第二同源音頻文件的數(shù)量大于所述第二閾值,則確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音。
其中,處理器701執(zhí)行根據(jù)所述第一同源音頻文件的數(shù)量和所述第二同源音頻文件的數(shù)量確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音時,具體執(zhí)行以下步驟:
檢測所述第一同源音頻文件的數(shù)量與所述第二同源音頻文件的數(shù)量的比值是否小于預(yù)設(shè)比值;
若所述第一同源音頻文件的數(shù)量與所述第二同源音頻文件的數(shù)量的比值小于所述預(yù)設(shè)比值,則確定所述目標(biāo)音頻文件存在的所述突變時域信號為逆向爆音。
其中,處理器701執(zhí)行確定待檢測的目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置時,具體執(zhí)行以下步驟:
控制通信接口702接收音頻文件客戶端發(fā)送的針對待檢測的目標(biāo)音頻文件的突變指示消息,所述突變指示消息指示所述目標(biāo)音頻文件存在突變時域信號,并攜帶存在所述突變時域信號的音頻位置;
根據(jù)所述突變指示消息確定所述目標(biāo)音頻文件存在所述突變時域信號以及存在所述突變時域信號的音頻位置。
其中,處理器701執(zhí)行確定待檢測的目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置時,具體執(zhí)行以下步驟:
根據(jù)第一預(yù)設(shè)算法對待檢測的目標(biāo)音頻文件進(jìn)行處理得到所述目標(biāo)音頻文件的多幀信號;
計算所述目標(biāo)音頻文件的多幀信號中每幀信號的能量信息;
若目標(biāo)幀信號的能量信息滿足預(yù)設(shè)突變條件,則確定所述目標(biāo)音頻文件存在突變時域信號以及存在所述突變時域信號的音頻位置,所述目標(biāo)幀信號為所述多幀信號中的一個。
其中,處理器701執(zhí)行查找與所述目標(biāo)音頻文件的標(biāo)簽信息和時長信息均相同的備選音頻文件時,具體執(zhí)行以下步驟:
從所述目標(biāo)音頻文件所屬音頻文件客戶端對應(yīng)的音頻文件數(shù)據(jù)庫和/或所述目標(biāo)音頻文件所屬的本地音頻文件庫中查找與所述目標(biāo)音頻文件的標(biāo)簽信息相同的標(biāo)簽音頻文件;
根據(jù)第二預(yù)設(shè)算法對每個標(biāo)簽音頻文件和所述目標(biāo)音頻文件進(jìn)行處理得到所述每個標(biāo)簽音頻文件的時長信息和所述目標(biāo)音頻文件的時長信息,所述時長信息包括分幀信號數(shù)量;
將與所述目標(biāo)音頻文件的分幀信號數(shù)量相同的標(biāo)簽音頻文件確定為備選音頻文件。
其中,處理器701執(zhí)行將所述目標(biāo)音頻文件的頻譜能量數(shù)字序列分別與每個備選音頻文件的頻譜能量數(shù)字序列進(jìn)行對比之前,還執(zhí)行以下步驟:
根據(jù)第三預(yù)設(shè)算法對每個備選音頻文件和所述目標(biāo)音頻文件進(jìn)行處理得到所述每個備選音頻文件的頻譜能量數(shù)字序列和所述目標(biāo)音頻文件的頻譜能量數(shù)字序列。
其中,處理器701從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件時,具體執(zhí)行以下步驟:
根據(jù)第四預(yù)設(shè)算法對每個同源音頻文件和所述目標(biāo)音頻文件進(jìn)行處理得到所述每個同源音頻文件在所述音頻位置的能量信息和所述目標(biāo)音頻文件在所述音頻位置的能量信息;
根據(jù)所述每個同源音頻文件在所述音頻位置的能量信息和所述目標(biāo)音頻文件在所述音頻位置的能量信息從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件。
其中,處理器701根據(jù)所述每個同源音頻文件在所述音頻位置的能量信息和所述目標(biāo)音頻文件在所述音頻位置的能量信息從所述同源音頻文件中確定在所述音頻位置存在突變時域信號的第一同源音頻文件和除所述第一同源音頻文件之外的第二同源音頻文件時,具體執(zhí)行以下步驟:
檢測所述每個同源音頻文件在所述音頻位置的能量信息與所述目標(biāo)音頻文件在所述音頻位置的能量信息是否滿足預(yù)設(shè)差值條件;
將滿足所述預(yù)設(shè)差值條件的同源音頻文件確定為在所述音頻位置存在突變時域信號的第一同源音頻文件,并確定除所述第一同源音頻文件之外的第二同源音頻文件。
需要說明的是,對于前述的各個方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某一些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳細(xì)描述的部分,可以參見其他實施例的相關(guān)描述。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計算機(jī)可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)或隨機(jī)存儲記憶體(Random Access Memory,RAM)等。
以上所揭露的僅為本發(fā)明較佳實施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。