本發(fā)明實施例涉及信號處理技術領域,并且更具體地,涉及檢測音頻信號的方法和裝置。
背景技術:
語音活動檢測(voiceactivitydetection,vad)是一種廣泛應用與語音通信、人機交互等領域的關鍵技術,vad也可以被稱為聲音活動檢測(soundactivitydetection,sad)。它的作用是檢測輸入的音頻信號中是否有活動性信號,其中活動性信號是相對于非活動信號而言(例如環(huán)境背景噪音、靜音等)。典型的活動信號包括語音、音樂等。vad的原理是從輸入的音頻信號中提取一個或多個特征參數(shù),根據(jù)這一個或多個特征參數(shù)確定一個或多個特征值,然后將這一個或多個特征值與一個或多個門限值進行比較。
現(xiàn)有技術中的基于分段信噪比(segmentalsignaltonoiseratio,ssnr)的活動信號檢測方法是將輸入的音頻信號在頻帶上劃分為多個子帶信號,計算該音頻信號在每一個子帶的能量,通過將該音頻信號在每一個子帶的能量與一個估計出的背景噪聲信號在每個子帶的能量做對比,獲得該音頻信號在每個子帶上的信噪比(signal-to-noiseratio,snr)。然后根據(jù)每個子帶上的子帶snr確定ssnr,將ssnr與預設的vad判決門限進行比較,如果該ssnr超過該vad判決門限,則該音頻信號為活動信號;如果該ssnr沒有超過該vad判決門限,則該音頻信號為非活動信號。
典型的一種計算ssnr的方法是將該音頻信號所有子帶snr相加,得到的結果就是ssnr。例如,可以采用公式1.1確定ssnr:
其中,k表示第k個子帶,snr(k)表示第k個子帶的子帶snr,n表示該音頻信號總共被劃分為子帶的子帶個數(shù)。
通過上述計算ssnr的方法檢測活動語音時,可能會造成活動語音的漏檢。
技術實現(xiàn)要素:
本發(fā)明實施例提供了檢測音頻信號的方法和裝置,能夠準確地分辨活動語音和非活動語音。
第一方面,本發(fā)明實施例提供一種檢測音頻信號的方法,該方法包括:確定輸入的音頻信號為待判斷音頻信號;根據(jù)所述音頻信號中各個子帶的子帶信噪比snr的權重和各個子帶的子帶snr,確定增強ssnr,其中,所述音頻信號中子帶snr大于第一預設門限的高頻端子帶的子帶snr的權重大于其他子帶的子帶snr的權重;將所述增強ssnr與語音活動檢測vad判決門限進行比較以確定所述音頻信號是否為活動信號。
結合第一方面,在第一方面的第一種可能的實現(xiàn)方式中,所述確定輸入的音頻信號為待判斷音頻信號包括:
根據(jù)所述音頻信號的子帶snr確定所述音頻信號為所述待判斷音頻信號。
結合第一方面的第一種可能的實現(xiàn)方式,在第一方面的第二種可能的實現(xiàn)方式中,所述根據(jù)所述音頻信號的子帶snr確定所述音頻信號為所述待判斷音頻信號包括:
在所述音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定所述音頻信號為所述待判斷音頻信號。
結合第一方面或第一方面的上述任何一種實現(xiàn)方式,在第一方面的又一種實現(xiàn)方式中,所述音頻信號被劃分成20個子帶,所述20個子帶由子帶0至子帶19組成,其中,子帶18和所述子帶19為所述高頻端子帶。
結合第一方面或第一方面的上述任何一種實現(xiàn)方式,在第一方面的又一種實現(xiàn)方式中,所述待判斷音頻信號為清音信號。
結合第一方面或第一方面的上述任何一種實現(xiàn)方式,在第一方面的又一種實現(xiàn)方式中,所述增強ssnr大于基準ssnr。
結合第二方面,本發(fā)明實施例提供一種裝置,包括:
第一確定單元,用于確定輸入的音頻信號為待判斷音頻信號;
第二確定單元,用于根據(jù)所述音頻信號中各個子帶的子帶信噪比snr的權重和各個子帶的子帶snr,確定增強ssnr,其中,所述音頻信號中子帶snr大于第一預設門限的高頻端子帶的子帶snr的權重大于其他子帶的子帶snr的權重;
第三確定單元,用于將所述增強ssnr與語音活動檢測vad判決門限進行比較以確定所述音頻信號是否為活動信號。
結合第二方面,在第二方面的第一種可能的實現(xiàn)方式中,所述第一確定單元,具體用于根據(jù)所述音頻信號的子帶snr確定所述音頻信號為所述待判斷音頻信號。
結合第二方面的第一種可能的實現(xiàn)方式,在第二方面的第二種可能的實現(xiàn)方式中,所述第一確定單元,具體用于在所述音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定所述音頻信號為所述待判斷音頻信號。
結合第二方面或第二方面的上述任何一種實現(xiàn)方式,在第二方面的又一種實現(xiàn)方式中,所述音頻信號被劃分成20個子帶,所述20個子帶由子帶0至子帶19組成,其中,子帶18和所述子帶19為所述高頻端子帶。
結合第二方面或第二方面的上述任何一種實現(xiàn)方式,在第二方面的又一種實現(xiàn)方式中,所述待判斷音頻信號為清音信號。
結合第二方面或第二方面的上述任何一種實現(xiàn)方式,在第二方面的又一種實現(xiàn)方式中,所述增強ssnr大于基準ssnr。
根據(jù)本發(fā)明實施例所提供的方法,可以確定音頻信號的特征,根據(jù)音頻信號的特征,采用相應的方式確定增強ssnr,并采用該增強ssnr與vad判決門限進行比較,這樣可以使得活動信號被漏檢比例降低。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術方案,下面將對本發(fā)明實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面所描述的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是根據(jù)本發(fā)明實施例提供的檢測音頻信號的方法的示意性流程圖。
圖2是根據(jù)本發(fā)明實施例提供的檢測音頻信號的方法的示意性流程圖。
圖3是根據(jù)本發(fā)明實施例提供的檢測音頻信號的方法的示意性流程圖。
圖4是根據(jù)本發(fā)明實施例提供的檢測音頻信號的方法的示意性流程圖。
圖5是根據(jù)本發(fā)明實施例提供的裝置的結構框圖。
圖6是根據(jù)本發(fā)明實施例提供的另一裝置的結構框圖。
圖7是根據(jù)本發(fā)明實施例提供的裝置的結構框圖。
圖8是根據(jù)本發(fā)明實施例提供的另一裝置的結構框圖。
圖9是根據(jù)本發(fā)明實施例提供的另一裝置的結構框圖。
圖10是根據(jù)本發(fā)明實施例提供的另一裝置的結構框圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所述的實施例是本發(fā)明的一部分實施例,而不是全部實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都應屬于本發(fā)明保護的范圍。
圖1是根據(jù)本發(fā)明實施例提供的檢測音頻信號的方法的示意性流程圖。
101,確定輸入的音頻信號為待判斷音頻信號。
102,確定該音頻信號的增強ssnr,其中該增強ssnr大于基準ssnr。
103,將該增強ssnr與vad判決門限比較,確定該音頻信號是否為活動信號。
在本發(fā)明的實施例中,在將增強ssnr與vad判決門限進行比較時,可以使用基準vad判決門限,也可以使用預置算法減小基準vad判決門限后獲得的減小后的vad判決門限。其中,基準vad判決門限可以是默認的vad判決門限,該基準vad判決門限可以是預先存儲的,也可以是臨時計算獲得,其中基準vad判決門限的計算可以采用現(xiàn)有公知技術。在使用預置算法減小基準vad判決門限時,該預置算法可以是將基準vad判決門限乘于一個小于1的系數(shù),也可以采用其他算法,本發(fā)明實施例并不限定所采用的具體算法。
在采用傳統(tǒng)的ssnr計算方法計算一些音頻信號的ssnr時,這些音頻信號的ssnr可能低于預設的vad判決門限。但是,實際上這些音頻信號是活動音頻信號。這是由于這些音頻信號的特性導致的。例如,在環(huán)境snr較低的情況下,高頻部分的子帶snr會顯著降低。并且,由于通常會采用心理聲學理論劃分子帶,高頻部分的子帶snr對ssnr的貢獻較低。在此情況下,對一些能量主要集中在相對高頻部分的信號,如清音信號,采用傳統(tǒng)的ssnr計算方法計算出的ssnr可能低于vad判決門限,這就造成活動信號的漏檢。又如,一些音頻信號中,音頻信號的能量較平坦的分布在頻譜上,但是該音頻信號的整體能量較低。這樣,在環(huán)境snr較低的情況下,采用傳統(tǒng)的ssnr計算方法計算出的ssnr也可能低于vad判決門限。圖1所示的方法通過適當?shù)奶岣遱snr的方式,使得ssnr可以大于vad判決門限,從而能夠有效地降低活動信號漏減的比例。
圖2是根據(jù)本發(fā)明實施例提供的檢測音頻信號的方法的示意性流程圖。
201,確定輸入的音頻信號的子帶snr。
將輸入音頻信號的頻譜劃分為n個子帶,其中n為大于1的正整數(shù)。具體地,可以采用心理聲學理論對該音頻信號的頻譜進行劃分。在采用心理聲學理論劃分音頻信號的頻譜的情況下,越靠近低頻的子帶寬度越窄,越靠近高頻的子帶寬度越寬。當然,也可以采用其他的方式劃分該音頻信號的頻譜,例如將該音頻信號的頻譜等分為n個子帶等方式。計算輸入音頻信號每個子帶的子帶snr,其中該子帶snr為該子帶的能量與背景噪聲在該子帶上的能量之比。背景噪聲的子帶能量一般是通過背景噪聲估計器估計出來的估計值。如何采用背景噪聲估計器估計出每個子帶對應的背景噪聲能量是本領域的公知技術,因此,這里就不必贅述。本領域技術人員可以理解,該子帶snr可以是直接的能量比值,也可以是直接能量比值的其他表現(xiàn)形式,例如對數(shù)子帶snr。此外,本領域技術人員還可以理解,該子帶snr還可以是對直接子帶snr做線性或非線性處理后的子帶snr或者其他的變形。以下公式是子帶snr的直接能量比值:
snr(k)=e(k)/en(k),………………………………………………公式1.2
其中,snr(k)表示第k子帶的子帶snr,e(k)和en(k)分別表示第k子帶的能量和背景噪聲在第k子帶上的能量。對數(shù)子帶snr可以表示為:snrlog(k)=10×log10snr(k),其中snrlog(k)表示第k子帶的對數(shù)子帶snr,snr(k)表示采用公式1.2計算出的第k子帶的子帶snr。本領域技術人員還可以理解,用于計算子帶snr的子帶能量既可以是輸入音頻信號在子帶上的能量,也可以是輸入音頻信號在子帶上的能量去除背景噪聲在該子帶上的能量之后的能量。snr的計算只要不脫離snr的意義即可。
202,確定輸入的音頻信號為待判斷音頻信號。
可選的,作為一個實施例,該確定輸入的音頻信號為待判斷音頻信號包括:可以是根據(jù)步驟201中確定的該音頻信號的子帶snr,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,該確定輸入的音頻信號為待判斷音頻信號,包括:在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,在根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,該確定輸入的音頻信號為待判斷音頻信號,包括:在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第二數(shù)量且該音頻信號中子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于第三數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。在本發(fā)明實施例中,一幀音頻信號的高頻端和低頻端是相對而言的,即頻率相對高一些的部分為高頻端,頻率相對低一些的部分為低頻端。
可選的,作為另一個實施例,在根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,該確定輸入的音頻信號為待判斷音頻信號,包括:在該音頻信號中的子帶snr的值大于第三預設門限的子帶的數(shù)量大于第四數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
該第一預設門限和該第二預設門限可以是根據(jù)大量的語音樣本統(tǒng)計得到的。具體來說,在大量含有背景噪聲的語音清音樣本中,統(tǒng)計高頻端子帶的子帶snr,從中確定第一預設門限,使得這些清音樣本中絕大多數(shù)的高頻端子帶的子帶snr均大于該門限。類似的,在這些語音清音樣本中統(tǒng)計低頻端子帶的子帶snr,從中確定第二預設門限,使得這些語音清音樣本中的絕大多數(shù)低頻端子帶的子帶snr均小于該門限。
該第三預設門限也是根據(jù)統(tǒng)計得到的。具體來說,從大量的噪聲信號的子帶snr中確定第三預設門限,使得這些噪聲信號中的絕大多數(shù)子帶的子帶snr都小于該值。
第一數(shù)量、第二數(shù)量、第三數(shù)量和第四數(shù)量也是根據(jù)統(tǒng)計得到的。以第一數(shù)量為例,在大量的含有噪聲的語音清音樣本幀中,統(tǒng)計高頻端子帶的子帶snr大于第一預設門限的子帶數(shù)量,從中確定第一數(shù)量,使得這些語音清音樣本幀中絕大多數(shù)的子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于該第一數(shù)量。獲取第二數(shù)量的方法與獲取第一數(shù)量的方法類似。第二數(shù)量可以與第一數(shù)量相同,第二數(shù)量也可以與第一數(shù)量不同。類似的,對于第三數(shù)量,在大量的含有噪聲的語音清音樣本幀中,統(tǒng)計低頻端子帶的子帶snr小于第二預設門限的子帶數(shù)量,從中確定第三數(shù)量,使得這些語音清音樣本幀中絕大多數(shù)的子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于該第三數(shù)量。對于第四數(shù)量,在大量的噪聲信號幀中,統(tǒng)計子帶snr小于第三預設門限的子帶數(shù)量,從中確定第四數(shù)量,使得這些噪聲樣本幀中絕大多數(shù)的子帶snr小于第三預設門限的子帶的數(shù)量大于該第四數(shù)量。
可選的,作為另一個實施例,可以通過判斷輸入的音頻信號是否為清音信號來確定輸入的音頻信號是否為待判斷音頻信號。在此情況下,判斷該音頻信號是否為待判斷音頻信號時不需要確定該音頻信號的子帶snr。換句話說,在判斷該音頻信號是否為待判斷音頻信號時不需要執(zhí)行步驟201。具體地,該確定輸入的音頻信號為待判斷音頻信號,包括:在確定該音頻信號為清音信號的情況下,確定該音頻信號為待判斷音頻信號。具體地,本領域技術人員可以理解,可以有多種用于檢測音頻信號是否為清音信號的方法。例如,可以通過檢測該音頻信號的時域過零率(zero-crossingrate,zcr)來確定該音頻信號是否為清音信號。具體地,在該音頻信號的zcr大于zcr閾值的情況下,確定該音頻信號為清音信號,其中該zcr閾值是通過大量實驗確定的。
203,確定該音頻信號的增強ssnr,其中該增強ssnr大于基準ssnr。
該基準ssnr可以是采用公式1.1計算出來的ssnr。從公式1.1可以看出,在計算基準ssnr時,沒有對任何一個子帶的子帶snr進行加權處理,也就是說,在計算基準ssnr時各個子帶的子帶snr的權重相同。
可選的,作為一個實施例,在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,或者,在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第二數(shù)量且在該音頻信號中子帶snr小于第二預設門限的低頻端子帶的數(shù)量小于第三數(shù)量的情況下,該確定該音頻信號的增強ssnr,包括:確定該音頻信號中各個子帶的子帶snr的權重,其中該子帶snr大于第一預設門限的高頻端子帶的權重大于其他子帶的子帶snr的權重,根據(jù)該音頻信號中各個子帶的子帶snr的權重和各個子帶的子帶snr,確定該增強ssnr。
例如,如果將該音頻信號按照心理聲學理論劃分為20個子帶,即子帶0至子帶19。如果子帶18和子帶19均大于第一預設值t1,則可以增加四個子帶,即子帶20至子帶23。具體來說,可以將信噪比大于t1的子帶18劃分為子帶18a、子帶18b和子帶18c,子帶19劃分為子帶19a、子帶19b和子帶19c。這樣,子帶18可以看作是子帶18a、子帶18b和子帶18c的母子帶,子帶19可以看作是子帶19a、子帶19b和子帶19c的母子帶。子帶18a、子帶18b和子帶18c的信噪比的取值與其母子帶的信噪比取值相同,子帶19a、子帶19b和子帶19c的信噪比的取值與其母子帶的信噪比的取值相同。這樣,就將原有劃分的20個子帶重新劃分為24個子帶。由于在進行活動信號檢測時,vad仍然是按照20個子帶進行設計的,因此需要將24個子帶映射回20個子帶,來確定增強ssnr。綜上,采用增加該子帶snr大于該第一預設門限的高頻端子帶的數(shù)量的方式來確定該增強ssnr時,可以采用以下公式進行計算:
其中,ssnr'表示該增強ssnr。snr(k)表示第k子帶的子帶snr。
如果采用公式1.1計算的ssnr為基準ssnr,則計算出來的基準ssnr為
又如,如果將該音頻信號按照心理聲學理論劃分為20個子帶,即子帶0至子帶19。如果snr(18)和snr(19)均大于第一預設值t1,且snr(0)到snr(17)均小于第二預設值t2,則可以采用以下公式確定該增強ssnr:
其中,ssnr'表示該增強ssnr,snr(k)表示第k子帶的子帶snr,a1和a2為增加權重參數(shù)并且a1和a2的取值使得a1×snr(18)+a2×snr(19)大于snr(18)+snr(19)。顯然,采用公式1.4計算出來的增強ssnr的值大于采用公式1.1計算出來的基準ssnr的值。
可選的,作為另一實施例,該確定該音頻信號的增強ssnr,包括:確定該音頻信號的基準ssnr,根據(jù)該音頻信號的基準ssnr,確定增強ssnr。
可選的,可以使用以下公式確定該增強ssnr:
ssnr'=x*ssnr+y,………………………………………………公式1.5
其中,ssnr表示該音頻信號的基準ssnr,ssnr'表示該增強ssnr,x和y表示增強參數(shù)。例如,x的取值可以為1.05,y的取值可以為1。本領域技術人員可以理解,x和y的取值還可以是其他合適的值,使得增強ssnr恰當?shù)拇笥诨鶞蕇snr。
可選的,可以使用以下公式確定該增強ssnr:
ssnr'=f(x)*ssnr+h(y),………………………………………公式1.6
其中,ssnr表示該音頻信號的原始ssnr,ssnr'表示該增強ssnr,f(x)、h(y)表示增強函數(shù)。例如,f(x)和h(y)可以是與該音頻信號的長時信噪比(long-termsnr,lsnr)相關的函數(shù),音頻信號的長時信噪比為一段較長時間內的平均snr或加權snr。例如,當lsnr大于20時,f(lsnr)可以等于1.1,y(lsnr)可以等于2。當lsnr小于20且大于15時,f(lsnr)可以等于1.05,y(lsnr)可以等于1。當lsnr小于15時,f(lsnr)可以等于1,y(lsnr)可以等于0。本領域技術人員可以理解,f(x)和h(y)還可以是其他合適的形式,使得增強ssnr恰當?shù)拇笥诨鶞蕇snr。
204,將該增強ssnr與vad判決門限比較,確定該音頻信號是否為活動信號。
具體來說,將該增強ssnr與vad判決門限比較,如果該增強ssnr大于該vad判決門限,則確定該音頻信號為活動信號。否則確定該音頻信號為非活動信號。
可選的,作為另一個實施例,在將該增強ssnr與vad判決門限進行比較前,該方法還可以包括:使用預置算法減小該vad判決門限,獲得減小后的vad判決門限。在此情況下,將該增強ssnr與vad判決門限比較具體包括:將該增強ssnr與該減小后的vad判決門限進行比較,確定該音頻信號是否為活動信號?;鶞蕍ad判決門限可以是默認的vad判決門限,該基準vad判決門限可以是預先存儲的,也可以是臨時計算獲得,其中基準vad判決門限的計算可以采用現(xiàn)有公知技術。在使用預置算法減小基準vad判決門限時,該預置算法可以是將基準vad判決門限乘于一個小于1的系數(shù),也可以采用其他算法,本發(fā)明實施例并不限定所采用的具體算法。該預置算法可以適當減小vad判決門限,使得增強ssnr大于該減小后的vad判決門限,從而可以使得活動信號被漏減的比例降低。
根據(jù)圖2所示的方法,確定音頻信號的特征,根據(jù)音頻信號的特征,采用相應的方式確定增強ssnr,并采用該增強ssnr與vad判決門限進行比較,這樣可以使得活動信號被漏檢比例降低。
圖3是根據(jù)本發(fā)明實施例提供的檢測音頻信號的方法的示意性流程圖。
301,確定輸入的音頻信號為待判斷音頻信號。
302,確定該音頻信號中各個子帶的子帶snr的權重,其中該子帶snr大于第一預設門限的包頻段子帶的子帶snr的權重大于其他子帶的子帶snr的權重。
303,根據(jù)該音頻信號中各個子帶的子帶snr的權重和各個子帶的子帶snr,確定增強ssnr,其中該增強ssnr大于基準ssnr。
該基準ssnr可以是采用公式1.1計算出來的ssnr。從公式1.1可以看出,在計算基準ssnr時,沒有對任何一個子帶的子帶snr進行加權處理,也就是說,在計算基準ssnr時各個子帶的子帶snr的權重相同。
例如,如果將該音頻信號按照心理聲學理論劃分為20個子帶,即子帶0至子帶19。如果子帶18和子帶19均大于第一預設值t1,則可以增加四個子帶,即子帶20至子帶23。具體來說,可以將信噪比大于t1的子帶18劃分為子帶18a、子帶18b和子帶18c,子帶19劃分為子帶19a、子帶19b和子帶19c。這樣,子帶18可以看作是子帶18a、子帶18b和子帶18c的母子帶,子帶19可以看作是子帶19a、子帶19b和子帶19c的母子帶。子帶18a、子帶18b和子帶18c的信噪比的取值與其母子帶的信噪比取值相同,子帶19a、子帶19b和子帶19c的信噪比的取值與其母子帶的信噪比的取值相同。這樣,就將原有劃分的20個子帶重新劃分為24個子帶。由于在進行活動信號檢測時,vad仍然是按照20個子帶進行設計的,因此需要將24個子帶映射回20個子帶,來確定增強ssnr。綜上,采用增加該子帶snr大于該第一預設門限的高頻端子帶的數(shù)量的方式來確定該增強ssnr時,可以采用以下公式進行計算:
其中,ssnr'表示該增強ssnr。snr(k)表示第k子帶的子帶snr。
如果采用公式1.1計算的ssnr為基準ssnr,則計算出來的基準ssnr為
又如,如果將該音頻信號按照心理聲學理論劃分為20個子帶,即子帶0至子帶19。如果snr(18)和snr(19)均大于第一預設值t1,且snr(0)到snr(17)均小于第二預設值t2,則可以采用以下公式確定該增強ssnr:
其中,ssnr'表示該增強ssnr,snr(k)表示第k子帶的子帶snr,a1和a2為增加權重參數(shù)并且a1和a2的取值使得a1×snr(18)+a2×snr(19)大于snr(18)+snr(19)。顯然,采用公式1.4計算出來的增強ssnr的值大于采用公式1.1計算出來的基準ssnr的值。
304,將該增強ssnr與vad判決門限比較,確定該音頻信號是否為活動信號。
具體來說,將該增強ssnr與vad判決門限比較,如果該增強ssnr大于該vad判決門限,則確定該音頻信號為活動信號。否則確定該音頻信號為非活動信號。
圖3所述的方法可以確定音頻信號的特征,根據(jù)音頻信號的特征,采用相應的方式確定增強ssnr,并采用該增強ssnr與vad判決門限進行比較,這樣可以使得活動信號被漏檢比例降低。
進一步,該確定輸入的音頻信號為待判斷音頻信號,包括,根據(jù)該音頻信號的子帶snr,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,該確定該音頻信號為待判斷音頻信號,包括:在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,在根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,該確定該音頻信號為待判斷音頻信號,包括:在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第二數(shù)量且該音頻信號中子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于第三數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
該第一預設門限和該第二預設門限可以是根據(jù)大量的語音樣本統(tǒng)計得到的。具體來說,在大量含有背景噪聲的語音清音樣本中,統(tǒng)計高頻端子帶的子帶snr,從中確定第一預設門限,使得這些清音樣本中絕大多數(shù)的高頻端子帶的子帶snr均大于該門限。類似的,在這些語音清音樣本中統(tǒng)計低頻端子帶的子帶snr,從中確定第二預設門限,使得這些語音清音樣本中的絕大多數(shù)低頻端子帶的子帶snr均小于該門限。
第一數(shù)量、第二數(shù)量和第三數(shù)量也是根據(jù)統(tǒng)計得到的。以第一數(shù)量為例,在大量的含有噪聲的語音清音樣本幀中,統(tǒng)計高頻端子帶的子帶snr大于第一預設門限的子帶數(shù)量,從中確定第一數(shù)量,使得這些語音清音樣本幀中絕大多數(shù)的子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于該第一數(shù)量。獲取第二數(shù)量的方法與獲取第一數(shù)量的方法類似。第二數(shù)量可以與第一數(shù)量相同,第二數(shù)量也可以與第一數(shù)量不同。類似的,對于第三數(shù)量,在大量的含有噪聲的語音清音樣本幀中,統(tǒng)計低頻端子帶的子帶snr小于第二預設門限的子帶數(shù)量,從中確定第三數(shù)量,使得這些語音清音樣本幀中絕大多數(shù)的子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于該第三數(shù)量。
圖1至圖3的實施例通過使用增強ssnr的方式判斷輸入的音頻信號是否為活動信號。圖4所示的方法是通過減小vad判決門限的方式判斷輸入的音頻信號是否為活動信號。
圖4是根據(jù)本發(fā)明實施例提供的檢測音頻信號的方法的示意性流程圖。
401,確定輸入的音頻信號為待判斷音頻信號。
可選的,作為一個實施例,該確定輸入的音頻信號為待判斷音頻信號包括:可以是根據(jù)步驟201中確定的該音頻信號的子帶snr,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,該確定輸入的音頻信號為待判斷音頻信號,包括:在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,在根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,該確定輸入的音頻信號為待判斷音頻信號,包括:在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第二數(shù)量且該音頻信號中子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于第三數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,在根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,該確定輸入的音頻信號為待判斷音頻信號,包括:在該音頻信號中的子帶snr的值大于第三預設門限的子帶的數(shù)量大于第四數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
該第一預設門限和該第二預設門限可以是根據(jù)大量的語音樣本統(tǒng)計得到的。具體來說,在大量含有背景噪聲的語音清音樣本中,統(tǒng)計高頻端子帶的子帶snr,從中確定第一預設門限,使得這些清音樣本中絕大多數(shù)的高頻端子帶的子帶snr均大于該門限。類似的,在這些語音清音樣本中統(tǒng)計低頻端子帶的子帶snr,從中確定第二預設門限,使得這些語音清音樣本中的絕大多數(shù)低頻端子帶的子帶snr均小于該門限。
該第三預設門限也是根據(jù)統(tǒng)計得到的。具體來說,從大量的噪聲信號的子帶snr中確定第三預設門限,使得這些噪聲信號中的絕大多數(shù)子帶的子帶snr都小于該值。
第一數(shù)量、第二數(shù)量、第三數(shù)量和第四數(shù)量也是根據(jù)統(tǒng)計得到的。以第一數(shù)量為例,在大量的含有噪聲的語音清音樣本幀中,統(tǒng)計高頻端子帶的子帶snr大于第一預設門限的子帶數(shù)量,從中確定第一數(shù)量,使得這些語音清音樣本幀中絕大多數(shù)的子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于該第一數(shù)量。獲取第二數(shù)量的方法與獲取第一數(shù)量的方法類似。第二數(shù)量可以與第一數(shù)量相同,第二數(shù)量也可以與第一數(shù)量不同。類似的,對于第三數(shù)量,在大量的含有噪聲的語音清音樣本幀中,統(tǒng)計低頻端子帶的子帶snr小于第二預設門限的子帶數(shù)量,從中確定第三數(shù)量,使得這些語音清音樣本幀中絕大多數(shù)的子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于該第三數(shù)量。對于第四數(shù)量,在大量的噪聲信號幀中,統(tǒng)計子帶snr小于第三預設門限的子帶數(shù)量,從中確定第四數(shù)量,使得這些噪聲樣本幀中絕大多數(shù)的子帶snr小于第三預設門限的子帶的數(shù)量大于該第四數(shù)量。
可選的,作為另一個實施例,可以通過判斷輸入的音頻信號是否為清音信號來確定輸入的音頻信號是否為待判斷音頻信號。在此情況下,判斷該音頻信號是否為待判斷音頻信號時不需要確定該音頻信號的子帶snr。換句話說,在判斷該音頻信號是否為待判斷音頻信號時不需要執(zhí)行步驟201。具體地,該確定輸入的音頻信號為待判斷音頻信號,包括:在確定該音頻信號為清音信號的情況下,確定該音頻信號為待判斷音頻信號。具體地,本領域技術人員可以理解,可以有多種用于檢測音頻信號是否為清音信號的方法。例如,可以通過檢測該音頻信號的時域過零率(zero-crossingrate,zcr)來確定該音頻信號是否為清音信號。具體地,在該音頻信號的zcr大于zcr閾值的情況下,確定該音頻信號為清音信號,其中該zcr閾值是通過大量實驗確定的。
402,獲取該音頻信號的基準ssnr。
具體地,該基準ssnr可以是采用公式1.1計算出來的ssnr。
403,使用預置算法減小基準vad判決門限,獲得減小后的vad判決門限。
具體地,基準vad判決門限可以是默認的vad判決門限,該基準vad判決門限可以是預先存儲的,也可以是臨時計算獲得,其中基準vad判決門限的計算可以采用現(xiàn)有公知技術。在使用預置算法減小基準vad判決門限時,該預置算法可以是將基準vad判決門限乘于一個小于1的系數(shù),也可以采用其他算法,本發(fā)明實施例并不限定所采用的具體算法。該預置算法可以適當減小vad判決門限,使得增強ssnr大于該減小后的vad判決門限,從而可以使得活動信號被漏減的比例降低。
404,將該基準ssnr與該減小后的vad判決門限進行比較,確定該音頻信號是否為活動信號。
在采用傳統(tǒng)的ssnr計算方法計算一些音頻信號的ssnr時,這些音頻信號的ssnr可能低于預設的vad判決門限。但是,實際上這些音頻信號是活動音頻信號。這是由于這些音頻信號的特性導致的。例如,在環(huán)境snr較低的情況下,高頻部分的子帶snr會顯著降低。并且,由于通常會采用心理聲學理論劃分子帶,高頻部分的子帶snr對ssnr的貢獻較低。在此情況下,對一些能量主要集中在相對高頻部分的信號,如清音信號,采用傳統(tǒng)的ssnr計算方法計算出的ssnr可能低于vad判決門限,這就造成活動信號的漏檢。又如,一些音頻信號中,音頻信號的能量較平坦的分布在頻譜上,但是該音頻信號的整體能量較低。這樣,在環(huán)境snr較低的情況下,采用傳統(tǒng)的ssnr計算方法計算出的ssnr也可能低于vad判決門限。圖4所示的方法通過降低vad判決門限的方式,使得采用傳統(tǒng)的ssnr計算方法計算出的ssnr大于vad判決門限,從而能夠有效地降低活動信號漏減的比例。
圖5是根據(jù)本發(fā)明實施例提供的裝置的結構框圖。圖5所示的裝置能夠執(zhí)行圖1或圖2的各個步驟。如圖5所示,裝置500包括第一確定單元501、第二確定單元502和第三確定單元503。
第一確定單元501,用于確定輸入的音頻信號為待判斷音頻信號。
第二確定單元502,用于確定該音頻信號的增強分段信噪比ssnr,其中該增強ssnr大于基準ssnr。
第三確定單元503,用于將該增強ssnr與語音活動檢測vad判決門限比較,確定該音頻信號是否為活動信號。
圖5所示的裝置500可以確定輸入的音頻信號的特征,根據(jù)音頻信號的特征,采用相應的方式確定增強ssnr,并采用該增強ssnr與vad判決門限進行比較,這樣可以使得活動信號被漏檢比例降低。
可選的,作為一個實施例,該第一確定單元501,具體用于根據(jù)該音頻信號的子帶snr,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在第一確定單元501根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,第一確定單元501,具體用于在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,在第一確定單元501根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,第一確定單元501,具體用于在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第二數(shù)量且該音頻信號中子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于第三數(shù)量情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,在第一確定單元501根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,第一確定單元501,具體用于在該音頻信號中的子帶snr的值大于第三預設門限的子帶的數(shù)量大于第四數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,第一確定單元501,具體用于在確定該音頻信號為清音信號的情況下,確定該音頻信號為待判斷音頻信號。具體地,本領域技術人員可以理解,可以有多種用于檢測音頻信號是否為清音信號的方法。例如,可以通過檢測該音頻信號的時域過零率(zero-crossingrate,zcr)來確定該音頻信號是否為清音信號。具體地,在該音頻信號的zcr大于zcr閾值的情況下,確定該音頻信號為清音信號,其中該zcr閾值是通過大量實驗確定的。
該第一預設門限和該第二預設門限可以是根據(jù)大量的語音樣本統(tǒng)計得到的。具體來說,在大量含有背景噪聲的語音清音樣本中,統(tǒng)計高頻端子帶的子帶snr,從中確定第一預設門限,使得這些清音樣本中絕大多數(shù)的高頻端子帶的子帶snr均大于該門限。類似的,在這些語音清音樣本中統(tǒng)計低頻端子帶的子帶snr,從中確定第二預設門限,使得這些語音清音樣本中的絕大多數(shù)低頻端子帶的子帶snr均小于該門限。
該第三預設門限也是根據(jù)統(tǒng)計得到的。具體來說,從大量的噪聲信號的子帶snr中確定第三預設門限,使得這些噪聲信號中的絕大多數(shù)子帶的子帶snr都小于該值。
第一數(shù)量、第二數(shù)量、第三數(shù)量和第四數(shù)量也是根據(jù)統(tǒng)計得到的。以第一數(shù)量為例,在大量的含有噪聲的語音樣本中,統(tǒng)計高頻端子帶的子帶snr大于第一預設門限的子帶數(shù)量,從中確定第一數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第一預設門限的高頻端子帶snr的數(shù)量大于該第一數(shù)量。確定第二數(shù)量的方法與確定第一數(shù)量的方法類似。第二數(shù)量可以與第一數(shù)量相同,也可以與第一數(shù)量不同。類似的,對于第三數(shù)量,在大量的含有噪聲的語音樣本中,統(tǒng)計低頻端子帶的子帶snr大于第二預設門限的子帶數(shù)量,從中確定第三數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第二預設門限的低頻端子帶snr的數(shù)量大于該第三數(shù)量。對于第四數(shù)量,在大量的含有噪聲的語音樣本中,統(tǒng)計子帶snr大于第三預設門限的子帶數(shù)量,從中確定第四數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第三預設門限的子帶snr的數(shù)量大于該第四數(shù)量。
進一步,第二確定單元502,具體用于確定該音頻信號中各個子帶的子帶snr的權重,其中該子帶snr大于第一預設門限的高頻端子帶的權重大于其他子帶的子帶snr的權重,根據(jù)該音頻信號中的各個子帶的子帶snr的權重和各個子帶的snr,確定該增強ssnr。
可選的,作為一個實施例,第二確定單元502,具體用于確定該音頻信號的基準ssnr,根據(jù)該音頻信號的基準ssnr,確定增強ssnr。
該基準ssnr可以是采用公式1.1計算出來的ssnr?;鶞蕇snr在計算時,計入ssnr的各個子帶的子帶snr在ssnr中的權重相同。
可選的,作為另一個實施例,第二確定單元502,具體用于使用以下公式確定該增強ssnr:
ssnr'=x*ssnr+y,………………………………………………公式1.7
其中,ssnr表示該基準ssnr,ssnr'表示該增強ssnr,x和y表示增強參數(shù)。例如,x的取值可以為1.05,y的取值可以為1。本領域技術人員可以理解,x和y的取值還可以是其他合適的值,使得增強ssnr恰當?shù)拇笥诨鶞蕇snr。
可選的,作為另一個實施例,第二確定單元502,具體用于使用以下公式確定該增強ssnr:
ssnr'=f(x)*ssnr+h(y),………………………………………公式1.8
其中,ssnr表示該基準ssnr,ssnr'表示該增強ssnr,f(x)、h(y)表示增強函數(shù)。例如,f(x)和h(y)可以是與該音頻信號的長時信噪比(long-termsnr,lsnr)相關的函數(shù),音頻信號的長時信噪比為一段較長時間內的平均snr或加權snr。例如,當lsnr大于20時,f(lsnr)可以等于1.1,y(lsnr)可以等于2。當lsnr小于20且大于15時,f(lsnr)可以等于1.05,y(lsnr)可以等于1。當lsnr小于15時,f(lsnr)可以等于1,y(lsnr)可以等于0。本領域技術人員可以理解,f(x)和h(y)還可以是其他合適的形式,使得增強ssnr恰當?shù)拇笥诨鶞蕇snr。
第三確定單元503,具體用于將該增強ssnr與語音活動檢測vad判決門限比較,根據(jù)比較結構確定該音頻信號是否為活動信號。具體來說,如果該增強ssnr大于該vad判決門限,則確定該音頻信號為活動信號。如果該增強ssnr小于該vad判決門限,則確定該音頻信號為非活動信號。
可選的,作為另一個實施例,還可以使用預置算法減小基準vad判決門限后獲得的減小后的vad判決門限,使用減小后的vad判決門限確定該音頻信號是否為活動信號。在此情況下,裝置500還可以包括第四確定單元504。第四確定單元504用于使用預置算法減小該vad判決門限,獲得減小后的vad判決門限。在此情況下,第三確定單元503,具體用于將該增強ssnr與該減小后的vad判決門限進行比較,確定該音頻信號是否為活動信號。
圖6是根據(jù)本發(fā)明實施例提供的另一裝置的結構框圖。圖6所示的裝置能夠執(zhí)行圖3的各個步驟。如圖6所示,裝置600包括第一確定單元601、第二確定單元602和第三確定單元603。
第一確定單元601,用于確定輸入的音頻信號為待判斷音頻信號。
第二確定單元602,用于確定該音頻信號中各個子帶的子帶信噪比snr的權重,其中該子帶snr大于第一預設門限的高頻端子帶的子帶snr的權重大于其他子帶的子帶snr的權重,根據(jù)該音頻信號中的各個子帶的子帶snr的權重和各個子帶的子帶snr,確定增強分段信噪比ssnr,其中該增強ssnr大于基準ssnr。
第三確定單元603,用于將該增強ssnr與語音活動檢測vad判決門限比較,確定該音頻信號是否為活動信號。
圖6所示的裝置600可以確定輸入的音頻信號的特征,根據(jù)音頻信號的特征,采用相應的方式確定增強ssnr,并采用該增強ssnr與vad判決門限進行比較,這樣可以使得活動信號被漏檢比例降低。
進一步,第一確定單元601,具體用于根據(jù)該音頻信號的子帶信噪比snr,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,第一確定單元601,具體用于在該音頻信號中子帶信噪比snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,第一確定單元601,具體用于在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第二數(shù)量且該音頻信號中子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于第三數(shù)量情況下,確定該音頻信號為待判斷音頻信號。
該第一預設門限和該第二預設門限可以是根據(jù)大量的語音樣本統(tǒng)計得到的。具體來說,在大量含有背景噪聲的語音清音樣本中,統(tǒng)計高頻端子帶的子帶snr,從中確定第一預設門限,使得這些清音樣本中絕大多數(shù)的高頻端子帶的子帶snr均大于該門限。類似的,在這些語音清音樣本中統(tǒng)計低頻端子帶的子帶snr,從中確定第二預設門限,使得這些語音清音樣本中的絕大多數(shù)低頻端子帶的子帶snr均小于該門限。
第一數(shù)量、第二數(shù)量和第三數(shù)量也是根據(jù)統(tǒng)計得到的。以第一數(shù)量為例,在大量的含有噪聲的語音清音樣本幀中,統(tǒng)計高頻端子帶的子帶snr大于第一預設門限的子帶數(shù)量,從中確定第一數(shù)量,使得這些語音清音樣本幀中絕大多數(shù)的子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于該第一數(shù)量。獲取第二數(shù)量的方法與獲取第一數(shù)量的方法類似。第二數(shù)量可以與第一數(shù)量相同,第二數(shù)量也可以與第一數(shù)量不同。類似的,對于第三數(shù)量,在大量的含有噪聲的語音清音樣本幀中,統(tǒng)計低頻端子帶的子帶snr小于第二預設門限的子帶數(shù)量,從中確定第三數(shù)量,使得這些語音清音樣本幀中絕大多數(shù)的子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于該第三數(shù)量。
圖7是根據(jù)本發(fā)明實施例提供的裝置的結構框圖。圖7所示的裝置能夠執(zhí)行圖1或圖2的各個步驟。如圖7所示,裝置700包括處理器701和存儲器702。其中,處理器701可以是通用處理器、數(shù)字信號處理器(digitalsignalprocessor,dsp)、專用集成電路(applicationspecificintegratedcircuit,asic)、現(xiàn)成可編程門陣列(fieldprogrammablegatearray,fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本發(fā)明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。結合本發(fā)明實施例所公開的方法的步驟可以直接體現(xiàn)為硬件譯碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以位于隨機存取存儲器(randomaccessmemory,ram)、閃存、只讀存儲器(read-onlymemory,rom)、可編程只讀存儲器或者電可擦寫可編程存儲器、寄存器等本領域成熟的存儲介質中。該存儲介質位于存儲器702,處理器701讀取存儲器702中的指令,結合其硬件完成上述方法的步驟。
處理器701,用于確定輸入的音頻信號為待判斷音頻信號。
處理器701,用于確定該音頻信號的增強分段信噪比ssnr,其中該增強ssnr大于基準ssnr。
處理器701,用于將該增強ssnr與語音活動檢測vad判決門限比較,確定該音頻信號是否為活動信號。
圖7所示的裝置700可以確定輸入的音頻信號的特征,根據(jù)音頻信號的特征,采用相應的方式確定增強ssnr,并采用該增強ssnr與vad判決門限進行比較,這樣可以使得活動信號被漏檢比例降低。
可選的,作為一個實施例,該處理器701,具體用于根據(jù)該音頻信號的子帶snr,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在處理器701根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,處理器701,具體用于在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,在處理器701根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,處理器701,具體用于在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第二數(shù)量且該音頻信號中子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于第三數(shù)量情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,在處理器701根據(jù)該音頻信號的子帶snr確定該音頻信號為待判斷音頻信號的情況下,處理器701,具體用于在該音頻信號中的子帶snr的值大于第三預設門限的子帶的數(shù)量大于第四數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,處理器701,具體用于在確定該音頻信號為清音信號的情況下,確定該音頻信號為待判斷音頻信號。具體地,本領域技術人員可以理解,可以有多種用于檢測音頻信號是否為清音信號的方法。例如,可以通過檢測該音頻信號的時域過零率(zero-crossingrate,zcr)來確定該音頻信號是否為清音信號。具體地,在該音頻信號的zcr大于zcr閾值的情況下,確定該音頻信號為清音信號,其中該zcr閾值是通過大量實驗確定的。
該第一預設門限和該第二預設門限可以是根據(jù)大量的語音樣本統(tǒng)計得到的。具體來說,在大量含有背景噪聲的語音清音樣本中,統(tǒng)計高頻端子帶的子帶snr,從中確定第一預設門限,使得這些清音樣本中絕大多數(shù)的高頻端子帶的子帶snr均大于該門限。類似的,在這些語音清音樣本中統(tǒng)計低頻端子帶的子帶snr,從中確定第二預設門限,使得這些語音清音樣本中的絕大多數(shù)低頻端子帶的子帶snr均小于該門限。
該第三預設門限也是根據(jù)統(tǒng)計得到的。具體來說,從大量的噪聲信號的子帶snr中確定第三預設門限,使得這些噪聲信號中的絕大多數(shù)子帶的子帶snr都小于該值。
第一數(shù)量、第二數(shù)量、第三數(shù)量和第四數(shù)量也是根據(jù)統(tǒng)計得到的。以第一數(shù)量為例,在大量的含有噪聲的語音樣本中,統(tǒng)計高頻端子帶的子帶snr大于第一預設門限的子帶數(shù)量,從中確定第一數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第一預設門限的高頻端子帶snr的數(shù)量大于該第一數(shù)量。確定第二數(shù)量的方法與確定第一數(shù)量的方法類似。第二數(shù)量可以與第一數(shù)量相同,也可以與第一數(shù)量不同。類似的,對于第三數(shù)量,在大量的含有噪聲的語音樣本中,統(tǒng)計低頻端子帶的子帶snr大于第二預設門限的子帶數(shù)量,從中確定第三數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第二預設門限的低頻端子帶snr的數(shù)量大于該第三數(shù)量。對于第四數(shù)量,在大量的含有噪聲的語音樣本中,統(tǒng)計子帶snr大于第三預設門限的子帶數(shù)量,從中確定第四數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第三預設門限的子帶snr的數(shù)量大于該第四數(shù)量。
進一步,處理器701,具體用于確定該音頻信號中各個子帶的子帶snr的權重,其中該子帶snr大于第一預設門限的高頻端子帶的權重大于其他子帶的子帶snr的權重,根據(jù)該音頻信號中的各個子帶的子帶snr的權重和各個子帶的snr,確定該增強ssnr。
可選的,作為一個實施例,處理器701,具體用于確定該音頻信號的基準ssnr,根據(jù)該音頻信號的基準ssnr,確定增強ssnr。
該基準ssnr可以是采用公式1.1計算出來的ssnr?;鶞蕇snr在計算時,計入ssnr的各個子帶的子帶snr在ssnr中的權重相同。
可選的,作為另一個實施例,處理器701,具體用于使用以下公式確定該增強ssnr:
ssnr'=x*ssnr+y,………………………………………………公式1.7
其中,ssnr表示該基準ssnr,ssnr'表示該增強ssnr,x和y表示增強參數(shù)。例如,x的取值可以為1.07,y的取值可以為1。本領域技術人員可以理解,x和y的取值還可以是其他合適的值,使得增強ssnr恰當?shù)拇笥诨鶞蕇snr。
可選的,作為另一個實施例,處理器701,具體用于使用以下公式確定該增強ssnr:
ssnr'=f(x)*ssnr+h(y),………………………………………公式1.8
其中,ssnr表示該基準ssnr,ssnr'表示該增強ssnr,f(x)、h(y)表示增強函數(shù)。例如,f(x)和h(y)可以是與該音頻信號的長時信噪比(long-termsnr,lsnr)相關的函數(shù),音頻信號的長時信噪比為一段較長時間內的平均snr或加權snr。例如,當lsnr大于20時,f(lsnr)可以等于1.1,y(lsnr)可以等于2。當lsnr小于20且大于17時,f(lsnr)可以等于1.07,y(lsnr)可以等于1。當lsnr小于17時,f(lsnr)可以等于1,y(lsnr)可以等于0。本領域技術人員可以理解,f(x)和h(y)還可以是其他合適的形式,使得增強ssnr恰當?shù)拇笥诨鶞蕇snr。
處理器701,具體用于將該增強ssnr與語音活動檢測vad判決門限比較,根據(jù)比較結構確定該音頻信號是否為活動信號。具體來說,如果該增強ssnr大于該vad判決門限,則確定該音頻信號為活動信號。如果該增強ssnr小于該vad判決門限,則確定該音頻信號為非活動信號。
可選的,作為另一個實施例,還可以使用預置算法減小基準vad判決門限后獲得的減小后的vad判決門限,使用減小后的vad判決門限確定該音頻信號是否為活動信號。在此情況下,處理器701還可以用于使用預置算法減小該vad判決門限,獲得減小后的vad判決門限。在此情況下,處理器701具體用于將該增強ssnr與該減小后的vad判決門限進行比較,確定該音頻信號是否為活動信號。
圖8是根據(jù)本發(fā)明實施例提供的另一裝置的結構框圖。圖8所示的裝置能夠執(zhí)行圖3的各個步驟。如圖8所示,裝置800包括處理器801和存儲器802。其中,處理器801可以是通用處理器、數(shù)字信號處理器(digitalsignalprocessor,dsp)、專用集成電路(applicationspecificintegratedcircuit,asic)、現(xiàn)成可編程門陣列(fieldprogrammablegatearray,fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本發(fā)明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。結合本發(fā)明實施例所公開的方法的步驟可以直接體現(xiàn)為硬件譯碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以位于隨機存取存儲器(randomaccessmemory,ram)、閃存、只讀存儲器(read-onlymemory,rom)、可編程只讀存儲器或者電可擦寫可編程存儲器、寄存器等本領域成熟的存儲介質中。該存儲介質位于存儲器802,處理器801讀取存儲器802中的指令,結合其硬件完成上述方法的步驟。
處理器801,用于確定輸入的音頻信號為待判斷音頻信號。
處理器801,用于確定該音頻信號中各個子帶的子帶信噪比snr的權重,其中該子帶snr大于第一預設門限的高頻端子帶的子帶snr的權重大于其他子帶的子帶snr的權重,根據(jù)該音頻信號中的各個子帶的子帶snr的權重和各個子帶的子帶snr,確定增強分段信噪比ssnr,其中該增強ssnr大于基準ssnr。
處理器801,用于將該增強ssnr與語音活動檢測vad判決門限比較,確定該音頻信號是否為活動信號。
圖8所示的裝置800可以確定輸入的音頻信號的特征,根據(jù)音頻信號的特征,采用相應的方式確定增強ssnr,并采用該增強ssnr與vad判決門限進行比較,這樣可以使得活動信號被漏檢比例降低。
進一步,處理器801,具體用于根據(jù)該音頻信號的子帶信噪比snr,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,處理器801,具體用于在該音頻信號中子帶信噪比snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為另一個實施例,處理器801,具體用于在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第二數(shù)量且該音頻信號中子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于第三數(shù)量情況下,確定該音頻信號為待判斷音頻信號。
該第一預設門限和該第二預設門限可以是根據(jù)大量的語音樣本統(tǒng)計得到的。具體來說,在大量含有背景噪聲的語音清音樣本中,統(tǒng)計高頻端子帶的子帶snr,從中確定第一預設門限,使得這些清音樣本中絕大多數(shù)的高頻端子帶的子帶snr均大于該門限。類似的,在這些語音清音樣本中統(tǒng)計低頻端子帶的子帶snr,從中確定第二預設門限,使得這些語音清音樣本中的絕大多數(shù)低頻端子帶的子帶snr均小于該門限。
第一數(shù)量、第二數(shù)量和第三數(shù)量也是根據(jù)統(tǒng)計得到的。以第一數(shù)量為例,在大量的含有噪聲的語音清音樣本幀中,統(tǒng)計高頻端子帶的子帶snr大于第一預設門限的子帶數(shù)量,從中確定第一數(shù)量,使得這些語音清音樣本幀中絕大多數(shù)的子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于該第一數(shù)量。獲取第二數(shù)量的方法與獲取第一數(shù)量的方法類似。第二數(shù)量可以與第一數(shù)量相同,第二數(shù)量也可以與第一數(shù)量不同。類似的,對于第三數(shù)量,在大量的含有噪聲的語音清音樣本幀中,統(tǒng)計低頻端子帶的子帶snr小于第二預設門限的子帶數(shù)量,從中確定第三數(shù)量,使得這些語音清音樣本幀中絕大多數(shù)的子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于該第三數(shù)量。
圖9是根據(jù)本發(fā)明實施例提供的另一裝置的結構框圖。圖9所示的裝置900可以執(zhí)行圖4的各個步驟。如圖9所示,裝置900包括:第一確定單元901、第二確定單元902、第三確定單元903和第四確定單元904。
第一確定單元901,用于確定輸入的音頻信號為待判斷音頻信號。
第二確定單元902,用于獲取該音頻信號的基準ssnr。
具體地,該基準ssnr可以是采用公式1.1計算出來的ssnr。
第三確定單元903,用于使用預置算法減小基準vad判決門限,獲得減小后的vad判決門限。
具體地,基準vad判決門限可以是默認的vad判決門限,該基準vad判決門限可以是預先存儲的,也可以是臨時計算獲得,其中基準vad判決門限的計算可以采用現(xiàn)有公知技術。在使用預置算法減小基準vad判決門限時,該預置算法可以是將基準vad判決門限乘于一個小于1的系數(shù),也可以采用其他算法,本發(fā)明實施例并不限定所采用的具體算法。該預置算法可以適當減小vad判決門限,使得增強ssnr大于該減小后的vad判決門限,從而可以使得活動信號被漏減的比例降低。
第四確定單元904,用于將該基準ssnr與該減小后的vad判決門限進行比較,確定該音頻信號是否為活動信號。
可選的,作為一個實施例,第一確定單元901,具體用于根據(jù)該音頻信號的snr,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在第一確定單元901根據(jù)該音頻信號的snr確定該音頻信號為待判斷音頻信號的情況下,第一確定單元901,具體用于在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在第一確定單元901根據(jù)該音頻信號的snr確定該音頻信號為待判斷音頻信號的情況下,第一確定單元901,具體用于在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第二數(shù)量且該音頻信號中子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于第三數(shù)量情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在第一確定單元901根據(jù)該音頻信號的snr確定該音頻信號為待判斷音頻信號的情況下,第一確定單元901,具體用于在該音頻信號中中子帶snr的值大于第三預設門限的子帶的數(shù)量大于第四數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,第一確定單元901,具體用于在確定該音頻信號為清音信號的情況下,確定該音頻信號為待判斷音頻信號。具體地,本領域技術人員可以理解,可以有多種用于檢測音頻信號是否為清音信號的方法。例如,可以通過檢測該音頻信號的時域過零率(zero-crossingrate,zcr)來確定該音頻信號是否為清音信號。具體地,在該音頻信號的zcr大于zcr閾值的情況下,確定該音頻信號為清音信號,其中該zcr閾值是通過大量實驗確定的。
該第一預設門限和該第二預設門限可以是根據(jù)大量的語音樣本統(tǒng)計得到的。具體來說,在大量含有背景噪聲的語音清音樣本中,統(tǒng)計高頻端子帶的子帶snr,從中確定第一預設門限,使得這些清音樣本中絕大多數(shù)的高頻端子帶的子帶snr均大于該門限。類似的,在這些語音清音樣本中統(tǒng)計低頻端子帶的子帶snr,從中確定第二預設門限,使得這些語音清音樣本中的絕大多數(shù)低頻端子帶的子帶snr均小于該門限。
該第三預設門限也是根據(jù)統(tǒng)計得到的。具體來說,從大量的噪聲信號的子帶snr中確定第三預設門限,使得這些噪聲信號中的絕大多數(shù)子帶的子帶snr都小于該值。
第一數(shù)量、第二數(shù)量、第三數(shù)量和第四數(shù)量也是根據(jù)統(tǒng)計得到的。以第一數(shù)量為例,在大量的含有噪聲的語音樣本中,統(tǒng)計高頻端子帶的子帶snr大于第一預設門限的子帶數(shù)量,從中確定第一數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第一預設門限的高頻端子帶snr的數(shù)量大于該第一數(shù)量。確定第二數(shù)量的方法與確定第一數(shù)量的方法類似。第二數(shù)量可以與第一數(shù)量相同,也可以與第一數(shù)量不同。類似的,對于第三數(shù)量,在大量的含有噪聲的語音樣本中,統(tǒng)計低頻端子帶的子帶snr大于第二預設門限的子帶數(shù)量,從中確定第三數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第二預設門限的低頻端子帶snr的數(shù)量大于該第三數(shù)量。對于第四數(shù)量,在大量的含有噪聲的語音樣本中,統(tǒng)計子帶snr大于第三預設門限的子帶數(shù)量,從中確定第四數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第三預設門限的子帶snr的數(shù)量大于該第四數(shù)量。
圖9所示的裝置900可以確定輸入的音頻信號的特征,根據(jù)音頻信號的特征,減小基準vad判決門限,并采用ssnr與減小后的vad判決門限進行比較,這樣可以使得活動信號被漏檢比例降低。
圖10是根據(jù)本發(fā)明實施例提供的另一裝置的結構框圖。圖10所示的裝置1000可以執(zhí)行圖4的各個步驟。如圖10所示,裝置1000包括:處理器1001和存儲器1002。其中,處理器1001可以是通用處理器、數(shù)字信號處理器(digitalsignalprocessor,dsp)、專用集成電路(applicationspecificintegratedcircuit,asic)、現(xiàn)成可編程門陣列(fieldprogrammablegatearray,fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本發(fā)明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。結合本發(fā)明實施例所公開的方法的步驟可以直接體現(xiàn)為硬件譯碼處理器執(zhí)行完成,或者用譯碼處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以位于隨機存取存儲器(randomaccessmemory,ram)、閃存、只讀存儲器(read-onlymemory,rom)、可編程只讀存儲器或者電可擦寫可編程存儲器、寄存器等本領域成熟的存儲介質中。該存儲介質位于存儲器1002,處理器1001讀取存儲器1002中的指令,結合其硬件完成上述方法的步驟。
處理器1001,用于確定輸入的音頻信號為待判斷音頻信號。
處理器1001,用于獲取該音頻信號的基準ssnr。
具體地,該基準ssnr可以是采用公式1.1計算出來的ssnr。
處理器1001,用于使用預置算法減小基準vad判決門限,獲得減小后的vad判決門限。
具體地,基準vad判決門限可以是默認的vad判決門限,該基準vad判決門限可以是預先存儲的,也可以是臨時計算獲得,其中基準vad判決門限的計算可以采用現(xiàn)有公知技術。在使用預置算法減小基準vad判決門限時,該預置算法可以是將基準vad判決門限乘于一個小于1的系數(shù),也可以采用其他算法,本發(fā)明實施例并不限定所采用的具體算法。該預置算法可以適當減小vad判決門限,使得增強ssnr大于該減小后的vad判決門限,從而可以使得活動信號被漏減的比例降低。
處理器1001,用于將該基準ssnr與該減小后的vad判決門限進行比較,確定該音頻信號是否為活動信號。
可選的,作為一個實施例,處理器1001,具體用于根據(jù)該音頻信號的snr,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在處理器1001根據(jù)該音頻信號的snr確定該音頻信號為待判斷音頻信號的情況下,處理器1001,具體用于在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第一數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在處理器1001根據(jù)該音頻信號的snr確定該音頻信號為待判斷音頻信號的情況下,處理器1001,具體用于在該音頻信號中子帶snr大于第一預設門限的高頻端子帶的數(shù)量大于第二數(shù)量且該音頻信號中子帶snr小于第二預設門限的低頻端子帶的數(shù)量大于第三數(shù)量情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,在處理器1001根據(jù)該音頻信號的snr確定該音頻信號為待判斷音頻信號的情況下,處理器1001,具體用于在該音頻信號中中子帶snr的值大于第三預設門限的子帶的數(shù)量大于第四數(shù)量的情況下,確定該音頻信號為待判斷音頻信號。
可選的,作為一個實施例,處理器1001,具體用于在確定該音頻信號為清音信號的情況下,確定該音頻信號為待判斷音頻信號。具體地,本領域技術人員可以理解,可以有多種用于檢測音頻信號是否為清音信號的方法。例如,可以通過檢測該音頻信號的時域過零率(zero-crossingrate,zcr)來確定該音頻信號是否為清音信號。具體地,在該音頻信號的zcr大于zcr閾值的情況下,確定該音頻信號為清音信號,其中該zcr閾值是通過大量實驗確定的。
該第一預設門限和該第二預設門限可以是根據(jù)大量的語音樣本統(tǒng)計得到的。具體來說,在大量含有背景噪聲的語音清音樣本中,統(tǒng)計高頻端子帶的子帶snr,從中確定第一預設門限,使得這些清音樣本中絕大多數(shù)的高頻端子帶的子帶snr均大于該門限。類似的,在這些語音清音樣本中統(tǒng)計低頻端子帶的子帶snr,從中確定第二預設門限,使得這些語音清音樣本中的絕大多數(shù)低頻端子帶的子帶snr均小于該門限。
該第三預設門限也是根據(jù)統(tǒng)計得到的。具體來說,從大量的噪聲信號的子帶snr中確定第三預設門限,使得這些噪聲信號中的絕大多數(shù)子帶的子帶snr都小于該值。
第一數(shù)量、第二數(shù)量、第三數(shù)量和第四數(shù)量也是根據(jù)統(tǒng)計得到的。以第一數(shù)量為例,在大量的含有噪聲的語音樣本中,統(tǒng)計高頻端子帶的子帶snr大于第一預設門限的子帶數(shù)量,從中確定第一數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第一預設門限的高頻端子帶snr的數(shù)量大于該第一數(shù)量。確定第二數(shù)量的方法與確定第一數(shù)量的方法類似。第二數(shù)量可以與第一數(shù)量相同,也可以與第一數(shù)量不同。類似的,對于第三數(shù)量,在大量的含有噪聲的語音樣本中,統(tǒng)計低頻端子帶的子帶snr大于第二預設門限的子帶數(shù)量,從中確定第三數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第二預設門限的低頻端子帶snr的數(shù)量大于該第三數(shù)量。對于第四數(shù)量,在大量的含有噪聲的語音樣本中,統(tǒng)計子帶snr大于第三預設門限的子帶數(shù)量,從中確定第四數(shù)量,使得這些語音樣本中絕大多數(shù)的大于第三預設門限的子帶snr的數(shù)量大于該第四數(shù)量。
圖10所示的裝置1000可以確定輸入的音頻信號的特征,根據(jù)音頻信號的特征,減小基準vad判決門限,并采用ssnr與減小后的vad判決門限進行比較,這樣可以使得活動信號被漏檢比例降低。
本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。
所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng)、裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。
所述功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解,本發(fā)明的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的部分可以以軟件產品的形式體現(xiàn)出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,可輕易想到的變化或替換,都應涵蓋在本發(fā)明的保護范圍之內,因此本發(fā)明的保護范圍應以權利要求的保護范圍為準。