本發(fā)明涉及一種說(shuō)話人語(yǔ)音回放鑒別方法及系統(tǒng),屬于,具體涉及一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人語(yǔ)音回放鑒別方法及系統(tǒng)。
背景技術(shù):
隨著語(yǔ)音信號(hào)處理技術(shù)的不斷發(fā)展,利用說(shuō)話人語(yǔ)音信號(hào)的特征進(jìn)行身份認(rèn)證的系統(tǒng)在諸多行業(yè)得到了廣泛的應(yīng)用。然而,盡管說(shuō)話人認(rèn)證(Automatic Speaker Verification,ASV)系統(tǒng)已可在諸如門禁系統(tǒng)、金融證券、網(wǎng)絡(luò)購(gòu)物、電子銀行、手機(jī)認(rèn)證等領(lǐng)域得到應(yīng)用,該系統(tǒng)的可靠性仍然存在較大的安全隱患。主要的人造威脅來(lái)自于入侵者利用技術(shù)手段,冒充目標(biāo)說(shuō)話人語(yǔ)音來(lái)“欺騙”ASV系統(tǒng),通過(guò)認(rèn)證。近些年來(lái),如何有效檢測(cè)、識(shí)別非認(rèn)證語(yǔ)音信號(hào),保證ASV系統(tǒng)的健壯性與穩(wěn)定性,已逐步引起人們的廣泛重視。有文獻(xiàn)研究表明,基于說(shuō)話人的語(yǔ)音入侵方式可以歸納為四大類:語(yǔ)音模仿、語(yǔ)音回放、語(yǔ)音合成和語(yǔ)音轉(zhuǎn)換。其中,語(yǔ)音回放入侵通過(guò)高保真錄放設(shè)備,采集認(rèn)證用戶的語(yǔ)音信息,通過(guò)回放的方式“欺騙”ASV系統(tǒng),假冒認(rèn)證用戶,實(shí)現(xiàn)入侵。有研究表明,相比其它三大類入侵方式,語(yǔ)音回放入侵的實(shí)現(xiàn)方式更為簡(jiǎn)單,任何人無(wú)需語(yǔ)音信號(hào)處理相關(guān)的知識(shí)即可實(shí)現(xiàn),是對(duì)ASV系統(tǒng)最大的威脅之一。
據(jù)可查閱的文獻(xiàn)資料顯示,近幾年來(lái)國(guó)內(nèi)外已有較多的研究人員從事說(shuō)話人錄音回放檢測(cè)相關(guān)的研究工作,具有代表性的檢測(cè)方法包括:(1)相似性檢測(cè)法;(2)遠(yuǎn)場(chǎng)錄音檢測(cè)法;(3)信道特征分析法;(4)多模態(tài)檢測(cè)法。其中方法(1)需要ASV系統(tǒng)已保存真實(shí)認(rèn)證用戶特定文本的語(yǔ)音;方法(2)需假定錄音設(shè)備采集用戶語(yǔ)音的位置較遠(yuǎn),適用性受到制約;方法(3)對(duì)于錄音設(shè)備信道特征的提取要求精度非常高,魯棒性較差;方法(4)結(jié)合人臉識(shí)別、唇動(dòng)識(shí)別等方式,實(shí)現(xiàn)及部署的成本較高,也并未從語(yǔ)音信號(hào)處理本身實(shí)現(xiàn)錄音回放檢測(cè)。
因此,如何設(shè)計(jì)并實(shí)現(xiàn)一種有著廣泛適用性、與語(yǔ)音文本無(wú)關(guān)、魯棒性強(qiáng)、部署簡(jiǎn)單的說(shuō)話人錄音回放鑒別方法和系統(tǒng),具有較強(qiáng)的現(xiàn)實(shí)意義與應(yīng)用價(jià)值。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明主要是解決現(xiàn)有技術(shù)所存在的上述技術(shù)問(wèn)題,提供了一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人語(yǔ)音回放鑒別方法及系統(tǒng)。該方法主系統(tǒng)基于在錄音播放前后環(huán)境噪聲變化,進(jìn)而檢測(cè)是否為錄音回放,能夠用于鑒別是否為真實(shí)身份的認(rèn)證用戶的語(yǔ)音,從而解決現(xiàn)有ASV系統(tǒng)中說(shuō)話人錄音回放入侵檢測(cè)方法魯棒性差、文本依賴性強(qiáng)等缺點(diǎn),為ASV系統(tǒng)更加廣泛的應(yīng)用于推廣提供技術(shù)支撐。
本發(fā)明的上述技術(shù)問(wèn)題主要是通過(guò)下述技術(shù)方案得以解決的:
一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別方法,包括:
背景噪聲特征提取步驟,用于提取待測(cè)語(yǔ)音信號(hào)前預(yù)設(shè)時(shí)段語(yǔ)音信號(hào)的功率譜特征作為背景噪聲能量特征值;
靜音段特征提取步驟,用于從待測(cè)語(yǔ)音信號(hào)中劃分出靜音段并計(jì)算靜音段語(yǔ)音幀的平均功率譜特征值作為待測(cè)信號(hào)靜音段特征值;
語(yǔ)音回放判斷步驟,用于將背景噪聲能量特征值與待測(cè)信號(hào)靜音段特征值進(jìn)行比較,若兩者特征變化超過(guò)閾值,則判斷為錄音回放。
優(yōu)化的,上述的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別方法,所述背景噪聲特征提取步驟中,基于以下步驟計(jì)算背景環(huán)境噪聲段終止時(shí)間:
(1)對(duì)于說(shuō)話人開(kāi)始發(fā)聲點(diǎn)Tv處,前移一小段時(shí)間至t時(shí)刻,計(jì)算t-△t到t+△t之間的平均強(qiáng)度Pt;
(2)然后選擇一步幅s,計(jì)算t-s-△t到t-s+△t的平均強(qiáng)度Pt-s,比較Pt和Pt-s的差的絕對(duì)值是否小于預(yù)先給定的閾值;
(3)若Pt和Pt-s之間差的絕對(duì)值大于閾值,則表明臨界點(diǎn)在t-s和t之間,即可以t-s為背景環(huán)境噪聲臨界點(diǎn)的終止時(shí)刻;
(4)若Pt和Pt-s之間差的絕對(duì)值小于閾值,則表明從t-s到t時(shí)間段內(nèi),噪聲強(qiáng)度沒(méi)有發(fā)生明顯變化,即表征沒(méi)有找到臨界點(diǎn)或臨界點(diǎn)不存在,則繼續(xù)以步幅s從t-s開(kāi)始向前移動(dòng),重復(fù)步驟(2);
(5)若進(jìn)過(guò)ns步后,仍未找到臨界點(diǎn),則表明在t-ns到t時(shí)間段內(nèi),環(huán)境噪聲無(wú)明顯變化,則以Pt表示背景噪聲強(qiáng)度,其中n為經(jīng)驗(yàn)系數(shù),預(yù)先設(shè)定。
優(yōu)化的,上述的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別方法,所述靜音段特征提取步驟中,靜音段劃分采用臨界平均能量閾值的方式,通過(guò)對(duì)整段待測(cè)語(yǔ)音信號(hào)平均能量的計(jì)算,同時(shí)加入調(diào)整系數(shù),來(lái)判斷某語(yǔ)音幀是否處于靜音段。
優(yōu)化的,上述的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別方法,所述靜音段特征提取步驟中,將原始語(yǔ)音段減去經(jīng)維納斯濾波后的語(yǔ)音得到的噪聲部分作為無(wú)說(shuō)話人語(yǔ)音的靜音段。
優(yōu)化的,上述的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別方法,所述語(yǔ)音回放判斷步驟中,若背景噪聲強(qiáng)度和待測(cè)語(yǔ)音噪聲強(qiáng)度的絕對(duì)值差小于設(shè)定的閾值,則判斷兩者具有相同的噪聲源,即判定待測(cè)語(yǔ)音為真實(shí)說(shuō)話人語(yǔ)音;若背景噪聲強(qiáng)度和猜測(cè)語(yǔ)音噪聲強(qiáng)度的絕對(duì)值大于閾值,則采用自適應(yīng)濾波和譜減法結(jié)合的方式再次提取無(wú)說(shuō)話人語(yǔ)音的靜音段;然后比較分析背景噪聲強(qiáng)度和待測(cè)語(yǔ)音噪聲強(qiáng)度。
優(yōu)化的,上述的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別方法,還包括:
閾值調(diào)整步驟,用于采用時(shí)序閾值優(yōu)化和/或監(jiān)督學(xué)習(xí)閾值法對(duì)語(yǔ)音回放判斷步驟中的閾值進(jìn)行調(diào)整;其中,時(shí)序閾值優(yōu)化基于檢測(cè)時(shí)所處的時(shí)段調(diào)整閾值選取方案;監(jiān)督學(xué)習(xí)閾值優(yōu)化通過(guò)人工設(shè)定樣本,經(jīng)過(guò)多次重復(fù)測(cè)試及結(jié)果反饋,更新閾值大小。
一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別裝置,包括:
背景噪聲特征提取模塊,用于提取待測(cè)語(yǔ)音信號(hào)前預(yù)設(shè)時(shí)段語(yǔ)音信號(hào)的功率譜特征作為背景噪聲能量特征值;
靜音段特征提取模塊,用于從待測(cè)語(yǔ)音信號(hào)中劃分出靜音段并計(jì)算靜音段語(yǔ)音幀的平均功率譜特征作為待測(cè)信號(hào)靜音段特征值;
語(yǔ)音回放判斷模塊,用于將背景噪聲能量特征值與待測(cè)信號(hào)靜音段特征值進(jìn)行比較,若兩者特征變化超過(guò)閾值,則判斷為錄音回放。
優(yōu)化的,上述的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別模塊,所述靜音段特征提取模塊中,靜音段劃分采用臨界平均能量閾值的方式,通過(guò)對(duì)整段待測(cè)語(yǔ)音信號(hào)平均能量的計(jì)算,同時(shí)加入調(diào)整系數(shù),來(lái)判斷某語(yǔ)音幀是否處于靜音段。
優(yōu)化的,上述的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別模塊,所述靜音段特征提取模塊中,將原始語(yǔ)音段減去維納斯濾波后的語(yǔ)音后得到的噪聲部分作為無(wú)說(shuō)話人語(yǔ)音的靜音段。
優(yōu)化的,上述的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別模塊,所述語(yǔ)音回放判斷模塊中,若背景噪聲強(qiáng)度和待測(cè)語(yǔ)音噪聲強(qiáng)度的絕對(duì)值差小于設(shè)定的閾值,則判斷兩者具有相同的噪聲源,即判定待測(cè)語(yǔ)音為真實(shí)說(shuō)話人語(yǔ)音;若背景噪聲強(qiáng)度和猜測(cè)語(yǔ)音噪聲強(qiáng)度的絕對(duì)值大于閾值,則采用自適應(yīng)濾波和譜減法結(jié)合的方式提取無(wú)說(shuō)話人語(yǔ)音的靜音段;再次比較分析背景噪聲強(qiáng)度和待測(cè)語(yǔ)音噪聲強(qiáng)度。
因此,本發(fā)明通過(guò)對(duì)待檢測(cè)語(yǔ)音前后環(huán)境噪聲的變化,檢測(cè)是否因?yàn)殇浺粼O(shè)備的播放而引入了新的噪聲(包括由播放設(shè)備信道特征引入的噪聲),從而判斷是否為錄音回放,使得可以再不依賴特定文本的語(yǔ)音檢測(cè)中,實(shí)現(xiàn)ASV系統(tǒng)的錄音回放攻擊檢測(cè),可以防止ASV系統(tǒng)因錄音回放攻擊而引起的安全隱患,完善聲紋認(rèn)證的安全保障;同時(shí)由于是對(duì)播放設(shè)備的檢測(cè),因此對(duì)于語(yǔ)音合成入侵和語(yǔ)音轉(zhuǎn)換入侵的檢測(cè),也具有輔助作用
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例提供的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別方法的流程圖;
圖2是本發(fā)明實(shí)施例提供的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面通過(guò)實(shí)施例,并結(jié)合附圖,對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步具體的說(shuō)明。
實(shí)施例:
本發(fā)明實(shí)施例中,通過(guò)高保真的音頻采集設(shè)備實(shí)現(xiàn)說(shuō)話人語(yǔ)音設(shè)備的采集,語(yǔ)音信號(hào)的處理以軟件的方式實(shí)現(xiàn)。
如圖1所示:在本發(fā)明實(shí)施例的基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別方法,其包括如下步驟:
S1、背景環(huán)境語(yǔ)音信號(hào)預(yù)處理,此步驟實(shí)現(xiàn)對(duì)待檢測(cè)語(yǔ)音信號(hào)輸入前的語(yǔ)音信號(hào)測(cè)量及預(yù)處理。首先通過(guò)預(yù)設(shè)值,選取待測(cè)語(yǔ)音信號(hào)前一定時(shí)間前的一段語(yǔ)音信號(hào)(環(huán)境噪聲),通過(guò)濾波消除信號(hào)中的突變信號(hào);接著提取濾波后信號(hào)的功率譜特征;
S2、待測(cè)語(yǔ)音信號(hào)靜音段劃分,此步驟實(shí)現(xiàn)對(duì)待檢測(cè)語(yǔ)音信號(hào)靜音段的時(shí)序劃分。靜音段劃分采用臨界平均能量閾值的方式,通過(guò)對(duì)整段待測(cè)語(yǔ)音信號(hào)平均能量的計(jì)算;同時(shí)加入調(diào)整系數(shù),來(lái)判斷某語(yǔ)音幀是否處于靜音段;
S3、待測(cè)語(yǔ)音信號(hào)靜音段特征提取,此步驟實(shí)現(xiàn)對(duì)待測(cè)語(yǔ)音播放期間,噪聲特征的提取。首先將S2步驟標(biāo)識(shí)出的處于靜音段所有語(yǔ)音幀用于計(jì)算,對(duì)每個(gè)語(yǔ)音幀提取功率譜特征值,對(duì)所有語(yǔ)音幀的功率譜特征值求平均,用于標(biāo)識(shí)待測(cè)語(yǔ)音存續(xù)期間噪聲的能量特征;
S4、背景環(huán)境噪聲信號(hào)特征與待測(cè)信號(hào)靜音段特征比較分析,此步驟將S3步驟提取的特征與S1步驟提取的功率譜特征比較,若兩者特征值有明顯變化,超過(guò)閾值,則判斷為引入了新的噪聲源,為錄音回放;
S5、調(diào)整閾值完成說(shuō)話人語(yǔ)音的錄音回放檢測(cè),此步驟實(shí)現(xiàn)對(duì)S4步驟中所述閾值的動(dòng)態(tài)調(diào)整,優(yōu)化檢測(cè)精度。通過(guò)定期輸入先驗(yàn)樣本,來(lái)實(shí)現(xiàn)對(duì)閾值的定期調(diào)整,增加對(duì)不同使用環(huán)境的適應(yīng)性。
如圖2所示:本發(fā)明實(shí)施例提供的一種基于環(huán)境噪聲變化檢測(cè)的說(shuō)話人錄音回放鑒別系統(tǒng),其包括:
背景噪聲特征提取模塊,用于提取待測(cè)語(yǔ)音信號(hào)前預(yù)設(shè)時(shí)段語(yǔ)音信號(hào)的功率譜特征作為背景噪聲能量特征值;
靜音段特征提取模塊,用于從待測(cè)語(yǔ)音信號(hào)中劃分出靜音段并計(jì)算靜音段語(yǔ)音幀的平均功率譜特征作為待測(cè)信號(hào)靜音段特征值;
語(yǔ)音回放判斷模塊,用于將背景噪聲能量特征值與待測(cè)信號(hào)靜音段特征值進(jìn)行比較,若兩者特征變化超過(guò)閾值,則判斷為錄音回放。
背景噪聲特征提取模塊具體包括背景環(huán)境語(yǔ)音信號(hào)濾波模塊10和背景環(huán)境語(yǔ)音信號(hào)特征提取模塊20。
背景環(huán)境語(yǔ)音信號(hào)濾波模塊10用于對(duì)環(huán)境背景噪聲的預(yù)處理,消除突變信號(hào),保證背景環(huán)境噪聲在檢測(cè)前后的一段時(shí)間內(nèi)平穩(wěn)。背景噪聲信號(hào)預(yù)處理主要采用濾波的方式,消除突變語(yǔ)音信號(hào)對(duì)檢測(cè)過(guò)程的影響,如打雷、敲門等聲音信號(hào)。需要截取一段時(shí)間的語(yǔ)音信號(hào),這段語(yǔ)音信號(hào)應(yīng)稍長(zhǎng)于模塊20所需提取的背景環(huán)境語(yǔ)音范圍,在實(shí)際操作中可由經(jīng)驗(yàn)值確定。背景環(huán)境語(yǔ)音信號(hào)特征提取模塊20提取能夠表征噪聲某方面性質(zhì)的特征值,如將噪聲強(qiáng)度作為特征標(biāo)識(shí)。對(duì)于待測(cè)信號(hào)出現(xiàn)前多長(zhǎng)時(shí)間判斷為背景噪聲的特征,即待測(cè)信號(hào)輸入時(shí)的臨界點(diǎn)判斷(若為錄音回放,則為播放設(shè)備開(kāi)啟的時(shí)刻),將采用逐步逼近的方式近似求得。
其中,對(duì)于表征噪聲性質(zhì)的特征值,本實(shí)施例選用噪聲強(qiáng)度作為標(biāo)識(shí)。
對(duì)于背景環(huán)境噪聲的特征的提取,關(guān)鍵步驟之一在于對(duì)平穩(wěn)噪聲段的選取。由于涉及到后續(xù)待測(cè)語(yǔ)音信號(hào),因此需要判斷背景噪聲和待測(cè)語(yǔ)音信號(hào)的介入引入的新的噪聲,兩者之間的臨界點(diǎn)即為背景環(huán)境噪聲段終止時(shí)間。待測(cè)語(yǔ)音信號(hào)可為真實(shí)說(shuō)話人聲音,也可能是錄音回放。對(duì)于真實(shí)說(shuō)話人聲音,臨界點(diǎn)為說(shuō)話人發(fā)聲開(kāi)始的瞬間;對(duì)于錄音回放,由于錄音中前段可能為無(wú)聲段,因此不能以說(shuō)話人的聲音出現(xiàn)作為臨界點(diǎn)判斷標(biāo)準(zhǔn)。本實(shí)施例采用逐步逼近的方式求得臨界點(diǎn),具體實(shí)施方法為:
(1)對(duì)于說(shuō)話人開(kāi)始發(fā)聲點(diǎn)Tv處,前移一小段時(shí)間至t時(shí)刻,計(jì)算t-△t到t+△t之間的平均強(qiáng)度Pt,其中,△t為預(yù)先設(shè)定的時(shí)間變化量,可根據(jù)使用環(huán)境與需求人工設(shè)定;
(2)然后選擇一步幅s,計(jì)算t-s-△t到t-s+△t的平均強(qiáng)度Pt-s,比較Pt和Pt-s的差的絕對(duì)值是否小于預(yù)先給定的閾值;
(3)若Pt和Pt-s之間差的絕對(duì)值大于閾值,則表明臨界點(diǎn)在t-s和t之間,即可以t-s為背景環(huán)境噪聲臨界點(diǎn)的終止時(shí)刻;
(4)若Pt和Pt-s之間差的絕對(duì)值小于閾值,則表明從t-s到t時(shí)間段內(nèi),噪聲強(qiáng)度沒(méi)有發(fā)生明顯變化,即表征沒(méi)有找到臨界點(diǎn)或臨界點(diǎn)不存在,則繼續(xù)以步幅s從t-s開(kāi)始向前移動(dòng),重復(fù)步驟(2);
(5)若進(jìn)過(guò)ns步后,仍未找到臨界點(diǎn),則表明在t-ns到t時(shí)間段內(nèi),環(huán)境噪聲無(wú)明顯變化,則以Pt表示背景噪聲強(qiáng)度,其中n為經(jīng)驗(yàn)系數(shù),預(yù)先設(shè)定。
靜音段特征提取模塊具體為圖2中的待測(cè)語(yǔ)音靜音段信號(hào)處理模塊30,用于對(duì)整段待測(cè)語(yǔ)音信號(hào)靜音段的語(yǔ)音幀識(shí)別與提取功率譜特征,將靜音段的信號(hào)看作噪聲,則測(cè)得的噪聲強(qiáng)度,若為錄音回放,則包括背景噪聲強(qiáng)度和回放設(shè)備中新引入的噪聲強(qiáng)度,求得整個(gè)待測(cè)語(yǔ)音靜音段的平均噪聲強(qiáng)度,以標(biāo)識(shí)待測(cè)語(yǔ)音檢測(cè)時(shí)的噪聲特征。
語(yǔ)音靜音段信號(hào)提取首先采用經(jīng)典的維納斯濾波,將原始語(yǔ)音段去噪濾波后的予以保存,然后將原始語(yǔ)音段減去維納斯濾波后的語(yǔ)音,即可得到維納斯濾波濾掉的噪聲部分,提取的噪聲即可表征無(wú)說(shuō)話人語(yǔ)音的靜音段的語(yǔ)音信號(hào)。
由于通常情況下,帶檢測(cè)語(yǔ)音存續(xù)期間,語(yǔ)音信號(hào)的信噪比比較大,因此可對(duì)靜音段語(yǔ)音信號(hào)做語(yǔ)音增強(qiáng)處理,確保提取的靜音段噪聲信號(hào)盡可能的精確。
對(duì)于有明顯語(yǔ)音間隔的待測(cè)語(yǔ)音信號(hào),可通過(guò)端點(diǎn)檢測(cè)的方式,在時(shí)序上分割待檢測(cè)語(yǔ)音的靜音段部分,從而可以直接測(cè)得靜音段的噪聲信號(hào)。
對(duì)提取后的靜音段噪聲信號(hào),同樣通過(guò)求得每幀語(yǔ)音的強(qiáng)度,通過(guò)線性平均得到待測(cè)語(yǔ)音信號(hào)的平均噪聲強(qiáng)度,以表征噪聲的聲學(xué)特征。
對(duì)于噪聲信號(hào)強(qiáng)度,亦可選擇提取其它語(yǔ)音特征,通過(guò)建立分析模型,聯(lián)動(dòng)多個(gè)特征參數(shù),綜合描述信號(hào)的特征。可選地特征包括Me l倒頻系數(shù)、頻譜包絡(luò)等等。
語(yǔ)音回放判斷模塊具體為圖2中的特征分析與比較功能模塊40,用于分析20模塊提取的噪聲強(qiáng)度特征和30提取的噪聲強(qiáng)度特征之間的差異性,通過(guò)閾值來(lái)分類兩種噪聲,鑒別是否為錄音回放。
對(duì)于以噪聲強(qiáng)度表征噪聲特征的本實(shí)施例中,將直接比較兩者的大小。若背景噪聲強(qiáng)度和待測(cè)語(yǔ)音噪聲強(qiáng)度的絕對(duì)值差小于設(shè)定的閾值,則判斷兩者具有相同的噪聲源,即判定待測(cè)語(yǔ)音為真實(shí)說(shuō)話人語(yǔ)音;若背景噪聲強(qiáng)度和猜測(cè)語(yǔ)音噪聲強(qiáng)度的絕對(duì)值大于閾值,則需進(jìn)行二次判斷。二次判斷的方法為:重復(fù)30模塊的主體功能,對(duì)待測(cè)語(yǔ)音段噪聲信號(hào)強(qiáng)度重新提取,提取過(guò)程將采用自適應(yīng)濾波和譜減法結(jié)合的方式,代替之前的維納斯濾波,最終提取待測(cè)語(yǔ)音段噪聲信號(hào)強(qiáng)度,進(jìn)而再次與背景環(huán)境噪聲強(qiáng)度比較判斷。
根據(jù)不同的使用環(huán)境和使用需求,可和模塊30一樣,選擇提取其它語(yǔ)音特征來(lái)比較分析。特別的,對(duì)于判斷為錄音回放時(shí),同樣需要換用其它濾波方式,再次提取待測(cè)語(yǔ)音段噪聲信號(hào)強(qiáng)度,重新分析比較。
檢測(cè)優(yōu)化模塊50,用于動(dòng)態(tài)的優(yōu)化40模塊中的閾值,從統(tǒng)計(jì)上,背景環(huán)境噪聲的變化在長(zhǎng)時(shí)間內(nèi)曾周期性變化,因此可根據(jù)不同時(shí)段內(nèi)使用多組不同閾值;同時(shí),通過(guò)周期性的輸入先驗(yàn)樣本,實(shí)現(xiàn)閾值定期的優(yōu)化。
本實(shí)施例還包括閾值調(diào)整模塊,其具體為附圖2中的檢測(cè)優(yōu)化模塊50,主要實(shí)現(xiàn)模塊40中閾值的優(yōu)化選取與動(dòng)態(tài)更新,實(shí)施方式分為兩部分:時(shí)序閾值優(yōu)化和監(jiān)督學(xué)習(xí)閾值優(yōu)化。
時(shí)序閾值優(yōu)化,主要考慮背景環(huán)境噪聲在時(shí)序上的不同時(shí)間段具有不同的聲學(xué)特征,因此需要更具所處時(shí)段,優(yōu)化選擇該時(shí)段使測(cè)試結(jié)果最為準(zhǔn)確的閾值選取方案。例如若白天的背景環(huán)境噪聲大于傍晚的噪聲,則對(duì)噪聲提取的精度要求更高,對(duì)于閾值的選取可適當(dāng)增大。
閾值的選取還應(yīng)和具體的需求相關(guān)。根據(jù)使用需求的優(yōu)先級(jí),微調(diào)閾值的大小,如FRR(False Rejection Rate)優(yōu)先,或是FAR(False Acceptance Rate)優(yōu)先。
監(jiān)督學(xué)習(xí)閾值優(yōu)化,用于長(zhǎng)時(shí)的閾值更新。當(dāng)背景環(huán)境噪聲長(zhǎng)時(shí)間發(fā)生穩(wěn)定變化時(shí),需要重新校準(zhǔn)閾值,可通過(guò)監(jiān)督學(xué)習(xí)的方式,人工設(shè)定樣本,通過(guò)多次重復(fù)測(cè)試及結(jié)果反饋,更新閾值大小。
本說(shuō)明書(shū)中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見(jiàn)即可。
專業(yè)人員還可以進(jìn)一步意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能性一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)超過(guò)本發(fā)明的范圍。
結(jié)合本文中所公開(kāi)的實(shí)施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來(lái)實(shí)施。軟件模塊可以置于隨機(jī)儲(chǔ)存器、內(nèi)存、只讀存儲(chǔ)器、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動(dòng)磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其他形式的存儲(chǔ)介質(zhì)中。
可以理解的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),可以根據(jù)本發(fā)明的技術(shù)構(gòu)思做出其它各種相應(yīng)的改變與變形,而所有這些改變與變形都應(yīng)屬于本發(fā)明權(quán)利要求的保護(hù)范圍。
本文中所描述的具體實(shí)施例僅僅是對(duì)本發(fā)明精神作舉例說(shuō)明。本發(fā)明所屬技術(shù)領(lǐng)域的技術(shù)人員可以對(duì)所描述的具體實(shí)施例做各種各樣的修改或補(bǔ)充或采用類似的方式替代,但并不會(huì)偏離本發(fā)明的精神或者超越所附權(quán)利要求書(shū)所定義的范圍。