語音識別方法、語音識別設(shè)備和電子設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種語音識別方法、語音識別設(shè)備和電子設(shè)備。該方法首先,通過利用檢測語音對應(yīng)的樣本環(huán)境,以及與前一次的環(huán)境類型一起進行判斷向語音引擎輸出相應(yīng)地語音修正指令,然后,將待識別語音同時輸入語音引擎和噪聲類型檢測引擎中,語音引擎利用該語音修正指令對待識別語音進行修正,使原始語音的質(zhì)量不會因為對噪聲的處理而受到損傷,并輸出對應(yīng)的初始識別結(jié)果;噪聲類型檢測引擎則利用待識別語音與不同環(huán)境下的語音訓練樣本判斷當前環(huán)境類型;最后,利用當前環(huán)境類型對初始識別結(jié)果中的置信度進行調(diào)整,以便于保證最終輸出的語音識別結(jié)果的識別效果能夠在當前環(huán)境下提供給用戶良好的用戶體驗。
【專利說明】語音識別方法、語音識別設(shè)備和電子設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識別【技術(shù)領(lǐng)域】,更具體的說,是涉及一種語音識別方法、語音識別設(shè)備和電子設(shè)備。
【背景技術(shù)】
[0002]目前,市面上的各類電子產(chǎn)品大多可以通過語音識別的方式實現(xiàn)對自身的控制和操作,但是,在進行語音識別的過程中,針對不同的環(huán)境類型,尤其是在強噪聲的環(huán)境類型下,普通的語音識別引擎容易受環(huán)境噪聲的干擾,語音識別率將會比安靜環(huán)境下大大降低。
[0003]在現(xiàn)有技術(shù)中主要采用降噪處理或提升語音水平的方式提高輸入語音的SNR值(Signal to Noise Ratio,信噪比),進而提高語音識別的識別率。
[0004]其中,降噪處理的過程為利用降噪模塊,通過以削減語音波形的降噪算法壓低環(huán)境的噪聲,提高輸入語音的SNR值,從而提高語音引擎的語音識別率和識別效果。此外在利用降噪算法增強語音的時候,現(xiàn)有技術(shù)中也存在利用進行語音識別前的設(shè)置參數(shù),決定語音識別引擎是否開啟降噪模塊的方式;提升語音水平的過程則是通過提升語音水平的方式提高SNR值。
[0005]上述現(xiàn)有技術(shù)中所采用的兩種方法,雖然在強噪聲環(huán)境下能夠提高一些語音識別率,但是在環(huán)境噪聲比較小或者說安靜的情況下,降噪處理是以削減語音波形的方法壓低環(huán)境噪聲,此種方法會損傷原始語音,導致語音識別率下降;而采用提升語音水平的方式同樣也會破壞原始語音的質(zhì)量,采用其提升語音識別率的效果低于對原始語音質(zhì)量的破壞。
[0006]由此可知,當前迫切需要一種能夠在各種環(huán)境下提升語音的識別效果,以及保證語音識別在各種環(huán)境中獲得穩(wěn)定且良好用戶體驗的語音識別方式。
【發(fā)明內(nèi)容】
[0007]有鑒于此,本發(fā)明實施例的目的在于提供了一種語音識別方法、語音識別設(shè)備和電子設(shè)備,以克服現(xiàn)有技術(shù)中的語音識別方式無法滿足在各種環(huán)境下保證語音識別能夠穩(wěn)定且具有良好用戶體驗的問題。
[0008]為實現(xiàn)上述目的,本發(fā)明實施例提供如下技術(shù)方案:
[0009]本發(fā)明實施例第一方面提供的一種語音識別的方法,包括:對輸入的語音進行劃分,獲取檢測語音和待識別語音;其中,所述檢測語音所包含的語音數(shù)據(jù)的長度小于所述待識別語音所包含的語音數(shù)據(jù)的長度;
[0010]噪聲類型檢測引擎將獲取到的所述檢測語音與不同樣本環(huán)境下的語音訓練樣本進行比對后,選擇與所述檢測語音差值最小的語音訓練樣本對應(yīng)的樣本環(huán)境為檢測環(huán)境類型,其中,所述樣本環(huán)境包括安靜環(huán)境和噪聲環(huán)境;
[0011]檢測存儲區(qū),當所述存儲區(qū)中存在可識別的前一次的環(huán)境類型時,依據(jù)所述檢測環(huán)境類型與所述前一次的環(huán)境類型的比較結(jié)果輸出語音修正指令,其中所述環(huán)境類型包括安靜環(huán)境或噪聲環(huán)境;[0012]語音引擎按照所述語音修正指令控制對所述待識別語音進行修正,并輸出初始識別結(jié)果;
[0013]所述噪聲類型檢測引擎將接收到的所述待識別語音分別與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的樣本環(huán)境為當前環(huán)境類型;
[0014]存儲所述當前環(huán)境類型至所述存儲區(qū)內(nèi)并在預(yù)設(shè)時長后拋棄所述當前環(huán)境類型;
[0015]依據(jù)所述當前環(huán)境類型調(diào)整所述初始識別結(jié)果的置信度值后,輸出最終識別結(jié)果O
[0016]本發(fā)明實施例第二方面提供的一種語音識別設(shè)備,包括:
[0017]處理器,用于對輸入的語音進行采樣,獲取檢測語音和待識別語音同時輸入噪聲類型檢測引擎和語音引擎;及用于檢測存儲區(qū),當所述存儲區(qū)中存在可識別的前一次的環(huán)境類型時,依據(jù)所述噪聲類型檢測引擎輸出的檢測環(huán)境類型與所述前一次的環(huán)境類型的比較結(jié)果輸出語音修正指令;及用于依據(jù)所述噪聲類型檢測引擎輸出的所述當前環(huán)境類型調(diào)整所述語音引擎輸出的所述初始識別結(jié)果的置信度值后,輸出最終識別結(jié)果;其中,所述檢測語音所包含的語音數(shù)據(jù)的長度小于所述待識別語音所包含的語音數(shù)據(jù)的長度,所述環(huán)境類型包括安靜環(huán)境或噪聲環(huán)境;
[0018]所述噪聲類型檢測引擎,用于將所述處理器輸出的所述檢測語音和待識別語音與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述檢測語音差值最小的所述語音訓練樣本對應(yīng)的樣本環(huán)境為檢測環(huán)境類型,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的樣本環(huán)境為當前環(huán)境類型,存儲所述當前環(huán)境類型至所述存儲區(qū)內(nèi)并在預(yù)設(shè)時長后拋棄所述當前環(huán)境類型;
[0019]語音引擎,用于按照所述處理器輸出的所述語音修正指令控制對接收到的所述待識別語音進行修正,并輸出初始識別結(jié)果。
[0020]本發(fā)明實施例第三方面提供的一種電子設(shè)備,其特征在于,包括上述本發(fā)明實施例第二方面提供的語音識別設(shè)備,與所述語音識別設(shè)備相連的錄音設(shè)備,與所述錄音設(shè)備連接的麥克風。
[0021]經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明實施例公開了一種語音識別方法、語音識別設(shè)備和電子設(shè)備。該方法先對輸入的語音進行劃分,進而利用劃分得到的檢測語音進行當前檢測環(huán)境的判定,并在存在前一次記錄的環(huán)境類型的情況下與前一次的環(huán)境類型進行比較,并將按照比較結(jié)果獲得的語音修正指令發(fā)送至語音引擎;語音引擎利用該語音修正指令對待識別語音進行修正,使原始語音的質(zhì)量不會因為對噪聲的處理而受到損傷,并輸出對應(yīng)的初始識別結(jié)果;將劃分得到的待識別語音同時被輸入至語音引擎和噪聲類型檢測引擎中,噪聲類型檢測引擎則利用待識別語音與不同環(huán)境下的語音訓練樣本判斷當前環(huán)境類型;最后,利用當前環(huán)境類型對初始識別結(jié)果中的置信度進行調(diào)整,以便于保證最終輸出的語音識別結(jié)果的識別效果能夠在當前環(huán)境下提供給用戶良好的用戶體驗。
【專利附圖】
【附圖說明】
[0022]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
[0023]圖1為本發(fā)明實施例一中公開的一種語音識別方法的流程圖;
[0024]圖2為本發(fā)明實施例二中公開的一種語音識別方法的流程圖;
[0025]圖3為本發(fā)明實施例二中公開的基于初始環(huán)境類型判斷語音修正指令的流程圖;
[0026]圖4為本發(fā)明實施例三中公開的確定采樣環(huán)境類型的流程圖;
[0027]圖5為本發(fā)明實施例三中公開的獲取語音修正指令的流程圖;
[0028]圖6為本發(fā)明實施例三中公開的時間差t,有效影響時長T與權(quán)重η之間的曲線關(guān)系圖;
[0029]圖7為本發(fā)明實施例三中公開的確定當前環(huán)境類型的流程圖;
[0030]圖8為本發(fā)明實施例四中公開的一種語音識別設(shè)備的結(jié)構(gòu)示意圖;
[0031]圖9為本發(fā)明實施例四中公開的一種電子設(shè)備的結(jié)構(gòu)示意圖。
【具體實施方式】
[0032]為了引用和清楚起見,下文中使用的技術(shù)名詞的說明、簡寫或縮寫總結(jié)如下:
[0033]SNR:Signal to Noise Ratio,信噪比;
[0034]SSE:Speech Signal Enhancement,語音信號增強;
[0035]NTD:Noise Type Detect,噪聲類型檢測;
[0036]dB:Decibel,分貝。
[0037]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0038]由【背景技術(shù)】可知,現(xiàn)有技術(shù)中采用降噪和提升語音水平的方式在相對安靜的環(huán)境下都會對原始語音造成損傷。也就是說,現(xiàn)有技術(shù)中在提高語音識別率,或者提高語音識別效果方面所使用的方法,并非能夠在各種環(huán)境中獲取相同效果,而僅僅是在噪聲比較大的時候,才能夠為用戶提供良好的語音識別的體驗,若處于越安靜的環(huán)境下,用戶所能夠感受到的語音識別體驗就越差。
[0039]因此,本發(fā)明實施例提供了一種語音識別方法,通過對當前輸入的語音的環(huán)境與前一次語音輸入時的環(huán)境的判斷,獲取是否對當前輸入的語音進行相關(guān)處理的指令,從而實現(xiàn)對該當前輸入的語音按照判斷的結(jié)果進行處理,以便于在各種環(huán)境中都能夠?qū)崿F(xiàn),既不對當前輸入的語音的原始語音造成損傷,又能夠保證識別該當前輸入的語音的高識別率和識別效果,從而保證能夠在各種環(huán)境中自適應(yīng)調(diào)整對語音識別,使用戶能夠獲得良好的語音應(yīng)用的體驗。
[0040]實施例一
[0041]如圖1所示,為本發(fā)明實施例一公開的一種語音識別方法的流程圖,主要包括以下步驟:
[0042]步驟S101,對輸入的語音進行劃分,獲取檢測語音和待識別語音;[0043]在步驟SlOl中,由處理器對當前輸入的語音進行劃分,將當前輸入的語音劃分為兩部分,一部分作為檢測語音,另一部分作為待識別語音。其中需要說明的是,作為檢測語音,其僅為當前輸入的語音中的一少部分音頻數(shù)據(jù),檢測語音的長度小于待識別語音的長度,即該檢測語音所包含的語音數(shù)據(jù)的長度小于待識別語音所包含的語音數(shù)據(jù)的長度。
[0044]例如,若當前輸入的語音長度為100幀,取前面長度為5幀的語音數(shù)據(jù)即可作為檢測語音,而剩余的長度為95的語音則作為待識別語音。當然也可以根據(jù)需要取語音中的10?15幀數(shù)據(jù)作為檢測語音,其所占百分比可以根據(jù)需要進行設(shè)定,所設(shè)定的前提為作為檢測語音的長度,不會影響后續(xù)對整個輸入語音的識別。
[0045]另外,在截取檢測語音時,最方便快捷的方式是從全部語音的最前面直接截取所預(yù)設(shè)的長度的語音作為檢測語音,但是本發(fā)明該實施例并不僅限于此,也可以采用從最后截取等方式獲取屬于當前輸入的語音中的一少部分音頻數(shù)據(jù)作為檢測語音。
[0046]步驟S102,NTD將獲取到的所述檢測語音與不同樣本環(huán)境下的語音訓練樣本進行比對后,選擇與所述檢測語音差值最小的所述語音訓練樣本對應(yīng)的樣本環(huán)境為采樣環(huán)境類型;
[0047]在步驟S102中,NTD在獲取到檢測語音之后,將其與不同樣本環(huán)境下的語音訓練樣本進行比對。該不同樣本環(huán)境下的語音訓練樣本是指:在各種環(huán)境下現(xiàn)場錄制的語音文件訓練之后獲得的結(jié)果。其訓練的過程如,在安靜環(huán)境下,NTD計算所錄制的語音樣本文件在該安靜環(huán)境下的噪聲類型檢測的結(jié)果,以及該安靜環(huán)境對識別該語音樣本文件的有效影響時長;在噪聲環(huán)境下,NID計算所錄制的語音樣本文件在該噪聲環(huán)境下的噪聲類型檢測的結(jié)果,以及該噪聲環(huán)境對識別語音樣本文件的有效影響時長。
[0048]也是就說,將不同樣本環(huán)境下的語音訓練樣本的結(jié)果作為判斷當前采樣環(huán)境的基本,通過比對,NTD對獲取到的檢測語音進行計算后的結(jié)果越接近那個樣本環(huán)境下的語音訓練樣本的結(jié)果,可以認為輸入該檢測語音時的環(huán)境與該樣本環(huán)境相同?;诖耍诒景l(fā)明實施例中采用檢測語音對應(yīng)的結(jié)果與語音訓練樣本的結(jié)果的差值進行比較,選擇差值最小的語音樣本對應(yīng)的環(huán)境類型為檢測語音輸入時的環(huán)境,即作為檢測環(huán)境類型以便于后續(xù)使用。
[0049]但是,本發(fā)明實施例中并不限于僅采用差值比較的方式,選擇結(jié)果最接近的環(huán)境類型,也可以通過其他的方式進行選擇,只要保證無限接近檢測語音的計算結(jié)果的語音訓練樣本的結(jié)果,其所對應(yīng)的樣本環(huán)境為檢測語音輸入時的環(huán)境即可。
[0050]其中,該樣本環(huán)境包括:安靜環(huán)境和噪聲環(huán)境;噪聲環(huán)境包括:車載小噪聲環(huán)境,車載大噪聲環(huán)境,普通道路路邊環(huán)境,繁忙道路路邊環(huán)境和嘈雜環(huán)境。
[0051]步驟S103,檢測存儲區(qū),當所述存儲區(qū)中存在可識別的前一次的環(huán)境類型時,依據(jù)所述檢測環(huán)境類型與所述前一次的環(huán)境類型的比較結(jié)果輸出語音修正指令;
[0052]在步驟S103中,該環(huán)境類型包括安靜環(huán)境或噪聲環(huán)境,其具體類型與前一次所進行的語音識別有關(guān),處理器通過檢測NTD獲取可識別的前一次的環(huán)境類型,也就是說前一次進行語音識別時所存儲的環(huán)境類型存在。處理器將從NTD處獲取到的檢測環(huán)境類型和前一次的環(huán)境類型進行比較,根據(jù)其比較前一次的環(huán)境類型對當前檢測環(huán)境的影響的大小,分別生成不同的語音修正指令,以備后續(xù)語音引擎利用該語音修正指令為待識別語音進行相應(yīng)的修正。[0053]其中,該語音修正指令主要包括:使語音引擎開啟語音增強的指令和關(guān)閉降噪處理的指令。
[0054]步驟S104,語音引擎按照所述語音修正指令控制對所述待識別語音的修正,并輸出初始識別結(jié)果;
[0055]在步驟S104中,語音引擎接收處理器發(fā)送的待識別語音和語音修正指令,并利用語音修正指令對待識別語音的修正進行控制,以便于輸出進行初步處理的初始識別結(jié)果。
[0056]需要說明的是,該待識別語音的長度滿足對原輸入語音進行識別的要求;語音引擎接收待識別語音和語音修正指令的時間由處理器發(fā)送的時間決定。
[0057]通過執(zhí)行步驟S104依據(jù)步驟S103通過檢測環(huán)境類型與前一次的環(huán)境類型進行判斷后輸出的語音修正指令,對待識別語音進行處理,在同時考慮前一次的環(huán)境類型和檢測環(huán)境類型對待識別語音的影響的角度出發(fā),其處理的過程降低了現(xiàn)有技術(shù)中不考慮環(huán)境而直接對輸入語音進行處理時,所帶來的對原始語音的損傷。
[0058]也就是說,執(zhí)行本發(fā)明實施例所公開的步驟S103和步驟S104后,可在不同環(huán)境下實現(xiàn)語音識別率的提升,且不損傷原始語音的質(zhì)量。其中,識別率是評估識別結(jié)果效果的度量數(shù)值,通過不損傷原始語音質(zhì)量的方式提升識別率,能夠保證后續(xù)對初始識別結(jié)果進行處理時,能夠保證最終語音識別的有效性。
[0059]步驟S105,所述NTD將接收到的所述待識別語音分別與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的樣本環(huán)境為當前環(huán)境類型,存儲所述當前環(huán)境類型至所述存儲區(qū)內(nèi)并在預(yù)設(shè)時長后拋棄所述當前環(huán)境類型;在步驟S105中,NTD將接收到的待識別語音分別與不同樣本環(huán)境下的語音訓練樣本進行比對的原理和過程,與執(zhí)行步驟S103中NTD將檢測語音與不同樣本環(huán)境下的語音訓練樣本進行比對的原理和過程相同,可參見步驟S103,這里不再進行贅述。
[0060]在比對的過程中,確定了語音訓練樣本所對應(yīng)的環(huán)境類型為當前環(huán)境類型,此時將該當前環(huán)境類型及該當前環(huán)境類型對待識別語音的有效影響時長等各類信息進行存儲。在存儲的過程中,如果當前存儲區(qū)內(nèi)存儲有前一次的環(huán)境類型及其相關(guān)信息等舊的信息,則用當前確定的當前環(huán)境類型及其相關(guān)信息替換掉上述舊的信息;在存儲的過程中,如果當前存儲區(qū)內(nèi)為空,不存在任何信息,則直接存儲當前確定的當前環(huán)境類型及其相關(guān)信息,并在存儲預(yù)設(shè)時長后拋棄當前所存儲的信息。
[0061]該存儲預(yù)設(shè)時長可根據(jù)不同的需要進行設(shè)定,通常其設(shè)定需要考慮其對下一次輸入的語音識別是否會產(chǎn)生影響。如,當前所存儲的環(huán)境類型將作為下一次輸入語音識別的前一次的環(huán)境類型使用,參考步驟S103。其較為優(yōu)選的方式則是針對不同的環(huán)境類型的對待識別語音的有效影響時長進行設(shè)定,其具體時長的長度可以與當前存儲的環(huán)境類型對待識別語音的有效影響時長相同,也可以大于該時長,通常情況下不會小于該時長。當所述當前環(huán)境類型為安靜環(huán)境時,所述存儲預(yù)設(shè)時長長于當所述當前環(huán)境類型為噪聲環(huán)境時的時長。
[0062]需要說明的是,上述步驟S104和步驟S105中接收到的待識別語音為處理器同時輸入至NTD和語音引擎中的,利用步驟S104和步驟S105僅為在后續(xù)說明本發(fā)明實施例技術(shù)方案的過程中提供清楚的引證,并不對其先后執(zhí)行順序進行限定。兩者的執(zhí)行過程沒有先后順序之分,可同時,也可以不同時。[0063]步驟S106,依據(jù)所述當前環(huán)境類型調(diào)整所述初始識別結(jié)果的置信度指后,輸出最終識別結(jié)果。
[0064]在步驟S106中,處理器根據(jù)NTD中存儲的當前環(huán)境類型對語音引擎輸出的初始識別結(jié)果的置信度值,該置信度值是評估識別結(jié)果可靠性的度量數(shù)值。在執(zhí)行步驟S104提高語音識別率后輸出了具有有效性的初始識別結(jié)果,進一步的再執(zhí)行步驟S106提高該初始識別結(jié)果的置信度值后,輸出最終的語音識別結(jié)果。
[0065]通過本發(fā)明實施例一中公開的語音識別方法,在當前輸入的語音的檢測環(huán)境類型和可識別的前一次的環(huán)境類型的共同作用下,給出用于指導語音引擎對待識別語音是否進行修正的語音修正指令,從而保證在高識別率下輸出的初始識別結(jié)果的有效性;然后再根據(jù)NTD的計算結(jié)果獲取到的當前環(huán)境類型對該初始識別結(jié)果的置信度進行調(diào)整,獲取對當前輸入的語音具有高識別率和識別效果的最終識別結(jié)果,從而保證能夠在各種環(huán)境中自適應(yīng)調(diào)整對語音識別,使用戶能夠獲得良好的語音應(yīng)用的體驗。
[0066]實施例二
[0067]如圖2所示,為本發(fā)明實施例二公開的一種語音識別方法的流程圖,主要包括以下步驟:
[0068]步驟S101,對輸入的語音進行采樣,獲取檢測語音及待識別語音;
[0069]步驟S102,NTD將獲取到的所述檢測語音與不同樣本環(huán)境下的語音訓練樣本進行比對后,選擇與所述檢測語音差值最小的所述語音訓練樣本對應(yīng)的樣本環(huán)境為檢測環(huán)境類型;
[0070]步驟S107,檢測NTD中是否存在可識別的前一次的環(huán)境類型,如果存在則執(zhí)行步驟S103,如果不存在,則執(zhí)行步驟S108。
[0071]在步驟S107中,處理器檢測NTD中是否存在可識別的前一次的環(huán)境類型,當長時間未識別出存在前一次的環(huán)境類型時,說明前一次的環(huán)境類型對本次的語音識別將不起作用,當有新的語音輸入時,執(zhí)行步驟S108將會采用初始環(huán)境類型作為備用判斷的條件。
[0072]步驟S103,當存在可識別的前一次的環(huán)境類型時,依據(jù)所述檢測環(huán)境類型與所述前一次的環(huán)境類型進行判斷,輸出語音修正指令;
[0073]步驟S108,當未識別出前一次的環(huán)境類型時,獲取初始環(huán)境類型,依據(jù)所述初始環(huán)境類型與所述檢測環(huán)境類型進行判斷,輸出語音修正指令;
[0074]步驟S104,語音引擎按照所述語音修正指令控制對所述待識別語音的修正,并輸出初始識別結(jié)果;
[0075]步驟S105,所述NTD將接收到的所述待識別語音分別與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的樣本環(huán)境為當前環(huán)境類型,存儲所述當前環(huán)境類型至所述存儲區(qū)內(nèi)并在預(yù)設(shè)時長后拋棄所述當前環(huán)境類型;
[0076]步驟S106,依據(jù)所述當前環(huán)境類型調(diào)整所述初始識別結(jié)果的置信度指后,輸出最終識別結(jié)果。
[0077]上述附圖2中示出的步驟SlOl?步驟S106與附圖1中示出的步驟SlOl?步驟S106執(zhí)行原理及執(zhí)行過程相同,這里不再進行贅述。需要說明的是,在步驟S104中的語音修正指令也有可能是執(zhí)行步驟S108所輸出的,但是其與執(zhí)行步驟S103輸出的語音修正指令含義相同,主要包括使語音引擎開啟語音增強的指令和關(guān)閉降噪處理的指令,其生成的過程則是在檢測環(huán)境類型和初始環(huán)境類型的工作作用下生成的。
[0078]在步驟S108中所提到的初始環(huán)境類型為預(yù)先設(shè)置的,該初始環(huán)境類型作為備用,當不存在前一次的環(huán)境類型時則調(diào)用該初始環(huán)境類型,通常情況下該初始環(huán)境類型為噪聲環(huán)境,更具體為嘈雜環(huán)境,當然本發(fā)明實施例對初始環(huán)境類型并不僅限于此限定,因此,該初始環(huán)境類型也可以設(shè)置為安靜環(huán)境。
[0079]該依據(jù)所述初始環(huán)境類型與所述檢測環(huán)境類型進行判斷,輸出語音修正指令的過程如圖3所示,主要包括:
[0080]步驟S301,判斷所述初始環(huán)境類型與所述檢測環(huán)境類型是否相同,若相同,則執(zhí)行步驟S302 ;若不相同,則執(zhí)行步驟S303。
[0081]步驟S302,當初始環(huán)境類型與檢測環(huán)境類型均為噪聲環(huán)境時,輸出用于語音增強的語音修正指令;當初始環(huán)境類型與檢測環(huán)境類型均為安靜環(huán)境時,輸出用于關(guān)閉降噪處理的語音修正指令;
[0082]在步驟S302中,根據(jù)不同的環(huán)境輸出具有不同控制功能的語音修正指令。
[0083]步驟S303,當所述初始環(huán)境類型為噪聲環(huán)境時,則輸出用于語音增強的語音修正指令;當所述初始環(huán)境類型為安靜環(huán)境時,輸出用于關(guān)閉降噪處理的語音修正指令。
[0084]在步驟S303中,在初始環(huán)境類型與檢測環(huán)境類型不同的情況下,則按照默認的初始環(huán)境類型來判斷所輸出的語音修正指令的類型。
[0085]結(jié)合附圖2說明,執(zhí)行步驟S302或步驟S303之后輸出用于語音增強,或者用于關(guān)閉降噪處理的語音修正指令。該用于語音增強的語音修正指令發(fā)送給語音引擎后,執(zhí)行步驟S104,由語音引擎基于該語音修正指令,先對待識別語音進行語音增強處理,之后再進行降噪處理;該用于關(guān)閉降噪處理的語音修正指令發(fā)送給語音引擎后,執(zhí)行步驟S104,由語音引擎基于該語音修正指令,關(guān)閉其對待識別語音進行降噪處理的過程。
[0086]在本發(fā)明實施例中,能夠保證在首次識別,或者當前一次的噪聲類型所存儲的時間超過存儲預(yù)設(shè)時長被拋棄的情況下,基于初始環(huán)境類型和檢測環(huán)境類型的共同作用輸出用于語音增強的語音修正指令,或者用于關(guān)閉降噪處理的語音修正指令,使語音引擎依據(jù)該語音修正指令對待識別語音進行相應(yīng)的處理,從而保證在不損傷原始語音的情況下獲取高的識別率,并由NTD對語音引擎輸出的初始識別結(jié)果的置信度值,依據(jù)當前環(huán)境類型進行適應(yīng)性的調(diào)整,保證最終輸出的語音識別結(jié)果的具有高的可靠性,從而實現(xiàn)在各種環(huán)境下都能夠適應(yīng)性調(diào)整語音識別的目的,確保用戶能夠在各種環(huán)境中獲取良好的用戶體驗。
[0087]實施例三
[0088]在上述實施例一和/或?qū)嵤├幕A(chǔ)上,針對上述附圖1和附圖2中示出的步驟S102,NTD將獲取到的所述檢測語音與不同樣本環(huán)境下的語音訓練樣本進行比對后,選擇與所述檢測語音差值最小的所述語音訓練樣本對應(yīng)的樣本環(huán)境為檢測環(huán)境類型;其具體執(zhí)行過程如圖4所示,主要包括:
[0089]步驟S1021,NTD對接收到的檢測語音按照能量水平區(qū)分為檢測語音幀部分和檢測噪聲巾貞部分;
[0090]步驟S1022,分別計算該檢測語音幀的能量水平和檢測噪聲幀部分的能量水平,獲取對應(yīng)的檢測語音水平和檢測噪聲水平;[0091]步驟S1023,依據(jù)檢測語音水平和檢測噪聲水平獲取該檢測語音對應(yīng)的檢測SNR,其中,檢測SNR=檢測語音水平-檢測噪聲水平;
[0092]步驟S1024,將上述的檢測語音水平,檢測噪聲水平和檢測SNR分別與不同樣本環(huán)境下的語音訓練樣本的語音訓練水平,噪聲訓練水平及訓練SNR進行比對;
[0093]步驟S1025,確定與該檢測語音水平差值最小的語音訓練水平,與該檢測噪聲水平差值最小的噪聲訓練水平,與該檢測SNR差值最小的訓練SNR所對應(yīng)的樣本環(huán)境為檢測環(huán)境類型。
[0094]在步驟S1024中,在各種環(huán)境下現(xiàn)場錄制的語音文件訓練之后,獲得各個經(jīng)訓練后的語音訓練樣本在各種環(huán)境下基于NTD計算獲取到的語音訓練水平,噪聲訓練水平和訓練SNR。然后,將上述檢測語音水平,檢測噪聲水平和檢測SNR分別與不同樣本環(huán)境下的語音訓練樣本的語音訓練水平,噪聲訓練水平及訓練SNR進行比對。
[0095]需要說明的是,在不同樣本環(huán)境下對語音訓練樣本進行訓練時,所獲取到的訓練值,還有不同樣本環(huán)境對語音訓練樣本的有效影響時長T。
[0096]基于步驟S1024中的比對,執(zhí)行步驟S1025,確定與該檢測語音水平差值最小的語音訓練水平,與該檢測噪聲水平差值最小的噪聲訓練水平,與該檢測SNR差值最小的訓練SNR所對應(yīng)的樣本環(huán)境為檢測環(huán)境類型。也就是說,通過比對確定當前的環(huán)境與訓練時不同的樣本環(huán)境中的哪一個最接近,選擇最接近的一個為樣本環(huán)境為檢測環(huán)境類型。這里舉例說明:
[0097]當有兩個樣本環(huán)境,安靜環(huán)境和嘈雜環(huán)境;其中,安靜環(huán)境的樣本SNR為15dB,噪聲樣本水平為-25dB,語音樣本水平為IOdB ;嘈雜環(huán)境的樣本SNR為10dB,噪聲樣本水平為_16dB,語音樣本水平為IOdB ;利用NTD對檢測語音進行計算后,獲得其檢測SNR為14dB,檢測噪聲水平為-23dB,檢測語音水平為9dB,經(jīng)過與上述安靜環(huán)境和嘈雜環(huán)境下的同類訓練值的比對可知,最接近的為15dB的樣本SNR,-25dB的噪聲樣本水平,IOdB的語音樣本水平,因此,判斷它們所對應(yīng)的安靜環(huán)境為檢測環(huán)境類型。
[0098]通過上述檢測語音的計算結(jié)果與訓練結(jié)果進行比對的過程,可準確的獲取當前輸入語音時的環(huán)境類型。
[0099]同樣,在上述實施例一和/或?qū)嵤├幕A(chǔ)上,針對上述附圖1和附圖2中示出的步驟S103,當存在可識別的前一次的環(huán)境類型時,依據(jù)所述檢測環(huán)境類型與所述前一次的環(huán)境類型進行判斷,輸出語音修正指令;其具體執(zhí)行過程如圖5所示,主要包括:
[0100]步驟S1031,獲取所述前一次的環(huán)境類型,所述前一次的環(huán)境類型對輸入語音的有效影響時長T;
[0101]在步驟S1031中,該有效影響時長T與上述附圖4中示出的步驟S1023中的有效影響時長T意義相同,都是其對應(yīng)的環(huán)境類型對輸入語音能夠產(chǎn)生影響的時間長度。
[0102]該有效影響時長T從理論上講是每個環(huán)境類型的時間衰減的范圍,例如安靜環(huán)境的范圍是20秒,嘈雜環(huán)境為10秒,馬路邊環(huán)境(普通道路路邊環(huán)境)為15秒。在本發(fā)明實施例中對上述范圍并不進行限定,上述數(shù)值可以是根據(jù)實際使用時錄制的語音文件分析得到的統(tǒng)計數(shù)值。
[0103]步驟S1032,計算所述檢測語音輸入時與前一次語音輸入之間的時間差t,及所述前一次的環(huán)境類型對所述檢測環(huán)境類型的影響值w (t);[0104]在步驟S1032中,當前檢測語音輸入的時間可以看作當前輸入語音的時間,計算當前輸入語音與前一次語音輸入之間時間間隔,即時間差t。其中給出的前一次的環(huán)境類型對檢測環(huán)境類型的影響值w(t)為一個隨時間t衰減的截斷函數(shù),所述w(t)的取值根據(jù)不同樣本環(huán)境下的語音訓練樣本中的樣本數(shù)據(jù)進行訓練得到,t和T的取值為正整數(shù)
[0105]利用該w(t)可知,如果兩次輸入語音的時間間隔短,則認為兩次輸入語音處于同一個環(huán)境中的概率很大,則前一次的環(huán)境類型的判斷對當前環(huán)境類型的判斷影響大;如果時間間隔長,則前一次的環(huán)境類型的判斷對當前環(huán)境類型的判斷影響小,或者沒有影響。
[0106]步驟S1033,判斷所述前一次的環(huán)境類型與所述檢測環(huán)境類型之間的平衡關(guān)系;步驟S1034,當所述前一次的環(huán)境類型和所述檢測環(huán)境類型均為噪聲環(huán)境時,則輸出用于語音增強的語音修正指令;
[0107]步驟S1035,當所述前一次的環(huán)境類型和所述檢測環(huán)境類型均為安靜環(huán)境時,則輸出用于關(guān)閉降噪處理的語音修正指令;
[0108]步驟S1036,當所述前一次的環(huán)境類型為噪聲環(huán)境,所述檢測環(huán)境類型為安靜環(huán)境,所述w(t) >=0.5,則時,輸出用于語音增強的語音修正指令;
[0109]步驟S1037,當所述前一次的環(huán)境類型為噪聲環(huán)境,所述檢測環(huán)境類型為安靜環(huán)境,所述w(t)〈0.5時,則輸出用于關(guān)閉降噪處理的語音修正指令;
[0110]步驟S1038,當所述w(t)>T時,所述檢測環(huán)境類型為安靜環(huán)境則輸出用于關(guān)閉降噪處理的語音修正指令;所述檢測環(huán)境類型為噪聲環(huán)境則輸出用于語音增強的語音修正指令。
[0111]基于步驟S1032,在步驟S1033中判斷前一次的環(huán)境類型與檢測環(huán)境類型之間的平衡關(guān)系,由上述步驟S1034?步驟S1038中的判斷結(jié)果可知,當前一次的環(huán)境類型和檢測環(huán)境類型相同時,則說明當前進行語音輸入的環(huán)境沒有改變,仍處于前一次的環(huán)境類型中,當為噪聲環(huán)境時,則依然需要執(zhí)行降噪處理,則輸出用于語音增強的語音修正指令;當為安靜環(huán)境是,為了避免降噪處理對語音識別的影響,則輸出用于關(guān)閉降噪處理的語音修正指令。
[0112]當前一次的環(huán)境類型和檢測環(huán)境類型不同時,則需要結(jié)合前一次的環(huán)境類型對所述檢測環(huán)境類型的影響值w(t)對前一次的環(huán)境類型和檢測環(huán)境類型之間的平衡進行判斷。
[0113]w(t)為一個隨時間t衰減的截斷函數(shù),所述w(t)的取值根據(jù)不同樣本環(huán)境下的語音訓練樣本中的樣本數(shù)據(jù)進行訓練得到,其具體可以為:
[0114]W(t)=exp(-t*lamda),當 t>T 時,w(t)=0 ;exp(*)為以 e 為底的指數(shù)函數(shù),Iamda為匿名函數(shù);w(t)隨時間t衰減,表示前一次的環(huán)境類型只作用在某一個時間范圍內(nèi)。
[0115]由圖6可知,前后兩次語音輸入的時間差t與w(t)是一個下降趨勢的曲線,時間差t越小,w(t)越大,前一次的環(huán)境類型對當前輸入的語音的影響就越大;時間差t越大,w(t)越小,前一次的環(huán)境類型對當前輸入的語音的影響就越??;如圖6所示,假設(shè)匿名函數(shù) Iamda=0.1,當 t=0 時,w (O)=I ;以此類推,w(l)=exp (-0.1)?0.905 ;w (2)=0.819 ;w (3)=0.741 ;w (4)=0.670 ;w (5)=0.607 ;w (6)=0.549 ;如果 T=20,當 t>20, w (t) =O0
[0116]當時間差t>T時,也就是超出了有效影響時長,此時即便存在前一次的環(huán)境類型也不會對當前輸入的語音產(chǎn)生任何的影響。通常情況下按照前一次的環(huán)境類型的存儲時長,前一次存儲的環(huán)境類型極有可能已被拋棄。
[0117]需要說明的是,上述給出的衰減函數(shù)w (t) =exp (_t*lamda)還可以拓展為:W(t) =exp (- (t/det) ~2),該衰減函數(shù)的衰減速度得更快。在實際應(yīng)用的過程中,在不同的場合可以選擇使用不同的衰減函數(shù)。
[0118]在本發(fā)明實施例中給出了步驟S1034?步驟S10385種結(jié)果,僅為將前一次的環(huán)境類型作為噪聲環(huán)境時的優(yōu)選內(nèi)容,本發(fā)明實施例對于次并不進行限定。當前一次的環(huán)境類型為安靜類型時,也可依據(jù)上述內(nèi)容進行推論,由前一次的環(huán)境類型和檢測環(huán)境類型共同確定所要輸出的語音修正指令的類型。
[0119]根據(jù)上述本發(fā)明實施例給出的輸出語音修正指令的過程,利用量化的公式進行描述,可具體為:當安靜環(huán)境的量化值為0,噪聲環(huán)境的量化值為1,前一次的環(huán)境類型和檢測環(huán)境類型之間的平衡關(guān)系為:
[0120]balance=噪聲環(huán)境*w (t) +安靜環(huán)境;
[0121]如果balance>0.5,則認為平衡關(guān)系更靠近1,也就是噪聲環(huán)境,故判斷為當前輸入語音的環(huán)境為噪聲環(huán)境,輸出用于語音增強的語音修正指令;
[0122]如果balance〈0.5,則認為平衡關(guān)系更靠近0,也就是安靜環(huán)境,故判斷為當前輸入語音的環(huán)境為安靜環(huán)境,輸出用于關(guān)閉降噪處理的語音修正指令;
[0123]如果balance=0.5,按照慣性邏輯處理,如果上一次是什么環(huán)境,則判斷為什么環(huán)境,即上一次是噪聲環(huán)境,則本次也是噪聲環(huán)境,輸出用于語音增強的語音修正指令;若上一次是安靜環(huán)境,則本次也是安靜環(huán)境,輸出用于關(guān)閉降噪處理的修正指令。
[0124]針對上述步驟S1034?步驟S1038中的判斷過程可參考附圖6中示出的衰減函數(shù),以及上述給出的量化公式的描述進行舉例說明:
[0125]假設(shè)安靜環(huán)境的有效影響時長是20秒,嘈雜環(huán)境的有效影響時長是10秒。
[0126]當時間差t為5秒時,若前一次的環(huán)境類型為嘈雜環(huán)境,T為10秒,w(t)為0.8,w(t)大于0.5,則說明前一次的嘈雜環(huán)境對當前輸入的語音所產(chǎn)生的影響高,判斷當前的環(huán)境類型屬于嘈雜環(huán)境,此時輸出用于語音增強的語音修正指令。
[0127]當時間差t為10秒時,若前一次的環(huán)境類型為嘈雜環(huán)境,T為10秒,w(t)為0.5,w(t)等于0.5,按照慣性設(shè)置,判斷當前的環(huán)境類型屬于嘈雜環(huán)境,此時輸出用于語音增強的語音修正指令;
[0128]當時間差t為20秒時,若前一次的環(huán)境類型為嘈雜環(huán)境,T為10秒,此時t>T,w (t)為0,因此,前一次的環(huán)境類型不會對本次的語音識別產(chǎn)生影響,因此,應(yīng)采用本發(fā)明實施例二中的示出的采用初始環(huán)境類型和檢測環(huán)境類型進行判斷,具體可參見本發(fā)明實施例二中記載的內(nèi)容。
[0129]若前一次的環(huán)境類型為安靜環(huán)境,T為20秒,w(t)為0.5,則按照慣性設(shè)置,判斷當前的環(huán)境類型屬于安靜環(huán)境,此時輸出用于關(guān)閉降噪處理的語音修正指令。
[0130]在上述實施例一和/或?qū)嵤├幕A(chǔ)上,針對上述附圖1和附圖2中示出的步驟S105,所述NTD將接收到的所述待識別語音分別與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的環(huán)境類型為當前環(huán)境類型,并將所述當前環(huán)境類型在存儲預(yù)設(shè)時長后拋棄:其具體執(zhí)行過程如圖7所示,主要包括:[0131]步驟S1051,所述NTD對接收到的所述待識別語音的語音幀部分和噪聲幀部分進行分析,獲取所述待識別語音的噪聲水平,語音水平及信噪比SNR ;
[0132]在步驟S1051中,NTD通過對獲取到的待識別語音按照能量水平區(qū)分獲得語音幀部分和噪聲幀部分,分析的過程為:分別計算該語音幀的能量水平和噪聲幀部分的能量水平,獲取對應(yīng)的語音水平和噪聲水平,并基于SNR等于語音水平與噪聲水平的差值,確定SNR。
[0133]步驟S1052,將所述待識別語音的噪聲水平,語音水平及信噪比SNR分別與不同樣本環(huán)境下的語音訓練樣本的噪聲訓練水平,語音訓練水平及訓練SNR進行比對;
[0134]步驟S1053,確定與所述噪聲水平差值最小的噪聲訓練水平,與所述語音水平差值最小的語音訓練水平,以及與所述SNR差值最小的訓練SNR所對應(yīng)的樣本環(huán)境類型為當前環(huán)境類型;
[0135]上述步驟S1051?步驟S1053的執(zhí)行過程的原理與上述步驟S1021?步驟S1025的原理相同,不同的地方僅在于一個是基于對檢測語音的處理,一個是基于待識別語音的處理,因此,具體執(zhí)行過程可參見上述步驟S1021?步驟S1025。
[0136]步驟S1054,對所述當前環(huán)境類型進行存儲,若存儲區(qū)內(nèi)存在前一次的環(huán)境類型,則用所述當前環(huán)境類型進行替換,若不存在,則在所述存儲預(yù)設(shè)時長后拋棄所述當前環(huán)境類型。
[0137]在步驟S1054中,在存儲的過程中,如果當前存儲區(qū)內(nèi)存儲有前一次的環(huán)境類型及其相關(guān)信息等舊的信息,則用當前確定的當前環(huán)境類型及其相關(guān)信息替換掉上述舊的信息;在存儲的過程中,如果當前存儲區(qū)內(nèi)為空,不存在任何信息,則直接存儲當前確定的當前環(huán)境類型及其相關(guān)信息,并在存儲預(yù)設(shè)時長后拋棄當前所存儲的信息。
[0138]該存儲預(yù)設(shè)時長可根據(jù)不同的需要進行設(shè)定,通常其設(shè)定需要考慮其對下一次輸入的語音識別是否會產(chǎn)生影響。如,當前所存儲的環(huán)境類型將作為下一次輸入語音識別的前一次的環(huán)境類型使用,其較為優(yōu)選的方式則是針對不同的環(huán)境類型的對待識別語音的有效影響時長進行設(shè)定,其具體時長的長度可以與當前存儲的環(huán)境類型對待識別語音的有效影響時長相同,也可以大于該時長,通常情況下不會小于該時長。
[0139]通過本發(fā)明實施例三中所公開的,在采樣檢測類型和前一次的環(huán)境類型的共同作用下,輸入用于語音增強的語音修正指令,或者用于關(guān)閉降噪處理的語音修正指令,使語音引擎依據(jù)該語音修正指令對待識別語音進行相應(yīng)的處理,從而保證在不損傷原始語音的情況下獲取高的識別率,并由NTD利用待識別語音計算確定的當前環(huán)境類型對語音引擎輸出的初始識別結(jié)果的置信度值,進行適應(yīng)性的調(diào)整,保證最終輸出的語音識別結(jié)果的具有高的可靠性,從而實現(xiàn)在各種環(huán)境下都能夠適應(yīng)性調(diào)整語音識別的目的,確保用戶能夠在各種環(huán)境中獲取良好的用戶體驗。
[0140]針對上述本發(fā)明實施例公開且詳細描述的語音識別方法,本發(fā)明實施例還公開了對應(yīng)執(zhí)行上述方法的語音識別設(shè)備和具有該語音識別設(shè)備的電子設(shè)備,下面給出具體的實施例進行詳細說明。
[0141]實施例四
[0142]如圖8所示,為本發(fā)明實施例四公開的一種語音識別設(shè)備的結(jié)構(gòu)示意圖,主要包括:處理器101,NTD102和語音引擎103。[0143]處理器101,用于對輸入的語音進行采樣,獲取檢測語音和待識別語音同時輸入NTD102和語音引擎103 ;及用于檢測存儲區(qū),當所述存儲區(qū)中存在可識別的前一次的環(huán)境類型時,依據(jù)所述NTD102輸出的檢測環(huán)境類型與所述前一次的環(huán)境類型的比較結(jié)果輸出語音修正指令;及用于依據(jù)所述NTD102輸出的所述當前環(huán)境類型調(diào)整所述語音引擎103輸出的所述初始識別結(jié)果的置信度值后,輸出最終識別結(jié)果;
[0144]其中,所述檢測語音所包含的語音數(shù)據(jù)的長度小于所述待識別語音所包含的語音數(shù)據(jù)的長度,所述環(huán)境類型為安靜環(huán)境或噪聲環(huán)境中的一種;NTD102,用于將所述處理器101輸出的所述檢測語音和待識別語音分別與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述檢測語音差值最小的所述語音訓練樣本對應(yīng)的環(huán)境類型為檢測環(huán)境類型,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的環(huán)境類型為當前環(huán)境類型,存儲所述當前環(huán)境類型至所述存儲區(qū)內(nèi)并在預(yù)設(shè)時長后拋棄所述當前環(huán)境類型;
[0145]語音引擎103,用于按照所述處理器101輸出的所述語音修正指令控制對接收到的所述待識別語音進行修正,并輸出初始識別結(jié)果。
[0146]需要說明的是,上述處理器101,在執(zhí)行當存儲區(qū)中存在可識別的前一次的環(huán)境類型時,依據(jù)所述NTD102輸出的檢測環(huán)境類型與所述前一次的環(huán)境類型進行判斷,輸出語音修正指令時,其具體執(zhí)行過程為:
[0147]獲取所述前一次的環(huán)境類型,及所述前一次的環(huán)境類型對語音訓練樣本的有效影響時長T ;
[0148]計算所述檢測語音輸入時與前一次語音輸入之間的時間差t,及所述前一次的環(huán)境類型對所述檢測環(huán)境類型的影響值w (t);
[0149]判斷所述前一次的環(huán)境類型與所述檢測環(huán)境類型之間的平衡關(guān)系;
[0150]當所述前一次的環(huán)境類型和所述檢測環(huán)境類型均為噪聲環(huán)境時,則輸出用于語音增強的語音修正指令;
[0151]當所述前一次的環(huán)境類型和所述檢測環(huán)境類型均為安靜環(huán)境時,則輸出用于關(guān)閉降噪處理的語音修正指令;
[0152]當所述前一次的環(huán)境類型為噪聲環(huán)境,所述檢測環(huán)境類型為安靜環(huán)境,所述w(t)>=0.5時,則輸出用于語音增強的語音修正指令;
[0153]當所述前一次的環(huán)境類型為噪聲環(huán)境,所述檢測環(huán)境類型為安靜環(huán)境,所述w(t)<0.5時,則輸出用于關(guān)閉降噪處理的語音修正指令;
[0154]當所述w(t)>T時,所述檢測環(huán)境類型為安靜環(huán)境則輸出用于關(guān)閉降噪處理的語音修正指令;所述檢測環(huán)境類型為噪聲環(huán)境則輸出用于語音增強的語音修正指令;
[0155]其中,w(t)為一個隨時間t衰減的截斷函數(shù),所述w(t)的取值根據(jù)不同樣本環(huán)境下的語音訓練樣本中的樣本數(shù)據(jù)進行訓練得到,t和T的取值為正整數(shù)。
[0156]上述NTD102在執(zhí)行將所述處理器101輸出的所述待識別語音與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的環(huán)境類型為當前環(huán)境類型,其具體執(zhí)行過程為:
[0157]對獲取到的所述待識別語音的語音幀部分和噪聲幀部分進行分析,獲取所述待識別語音的噪聲水平,語音水平及信噪比SNR,并將所述待識別語音的噪聲水平,語音水平及信噪比SNR分別與不同樣本環(huán)境下的語音訓練樣本的噪聲訓練水平,語音訓練水平及訓練SNR進行比對,確定與所述噪聲水平差值最小的噪聲訓練水平,與所述語音水平差值最小的語音訓練水平,以及與所述SNR差值最小的訓練SNR所對應(yīng)的環(huán)境類型為當前環(huán)境類型,
[0158]在上述存儲所述當前環(huán)境類型至所述存儲區(qū)內(nèi)并在預(yù)設(shè)時長后拋棄所述當前環(huán)境類型的過程中,如果當前存儲區(qū)內(nèi)存儲有前一次的環(huán)境類型及其相關(guān)信息等舊的信息,則用當前確定的當前環(huán)境類型及其相關(guān)信息替換掉上述舊的信息;在存儲的過程中,如果當前存儲區(qū)內(nèi)為空,不存在任何信息,則直接存儲當前確定的當前環(huán)境類型及其相關(guān)信息,并在存儲預(yù)設(shè)時長后拋棄當前所存儲的信息。
[0159]上述本發(fā)明實施例四中公開的一種語音識別設(shè)備其所執(zhí)行的方法,為上述本發(fā)明實施例一至本發(fā)明實施例三中公開的方法,因此,上述處理器101,NTD102和語音引擎103的具體執(zhí)行過程可參見上述對應(yīng)的方法,這里不再進行贅述。
[0160]另外,本發(fā)明實施例四還公開了一種具有上述語音識別設(shè)備的電子設(shè)備,如圖9所示,該電子設(shè)備中至少包括與所述語音識別設(shè)備I相連的錄音設(shè)備2,與所述錄音設(shè)備2連接的麥克風3。
[0161]具體的,由錄音設(shè)備2通過麥克風3對當前輸入的語音進行收集并錄音,并將所錄的語音輸入至語音識別設(shè)備I中的處理器內(nèi)進行相關(guān)的處理。
[0162]需要說明的是,本發(fā)明實施例四所公開的具有語音識別設(shè)備的電子設(shè)備,可以為手機,PAD等移動終端,也可以為具有麥克風和錄首設(shè)備的固定終端。
[0163]綜上所述:
[0164]本發(fā)明實施例所公開的語音識別方法、語音識別設(shè)備和電子設(shè)備,首先,在當前輸入的語音的檢測環(huán)境類型和可識別的前一次的環(huán)境類型的共同作用下,給出用于指導語音引擎對待識別語音是否進行修正的語音修正指令,從而保證在高識別率下輸出的初始識別結(jié)果的有效性;然后,再根據(jù)NTD的計算結(jié)果獲取到的當前環(huán)境類型對該初始識別結(jié)果的置信度進行調(diào)整;最終,獲取對當前輸入的語音具有高識別率和識別效果的最終識別結(jié)果,從而保證能夠在各種環(huán)境中自適應(yīng)調(diào)整對語音識別,使用戶能夠獲得良好的語音應(yīng)用的體驗。
[0165]本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的設(shè)備而言,由于其與實施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
[0166]結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或【技術(shù)領(lǐng)域】內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
[0167]對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。
【權(quán)利要求】
1.一種語音識別的方法,其特征在于,包括: 對輸入的語音進行劃分,獲取檢測語音和待識別語音;其中,所述檢測語音所包含的語音數(shù)據(jù)的長度小于所述待識別語音所包含的語音數(shù)據(jù)的長度; 噪聲類型檢測引擎將獲取到的所述檢測語音與不同樣本環(huán)境下的語音訓練樣本進行比對后,選擇與所述檢測語音差值最小的語音訓練樣本對應(yīng)的樣本環(huán)境為檢測環(huán)境類型,其中,所述樣本環(huán)境包括安靜環(huán)境和噪聲環(huán)境; 檢測存儲區(qū),當所述存儲區(qū)中存在可識別的前一次的環(huán)境類型時,依據(jù)所述檢測環(huán)境類型與所述前一次的環(huán)境類型的比較結(jié)果輸出語音修正指令,其中所述環(huán)境類型為安靜環(huán)境或噪聲環(huán)境中的一種; 語音引擎按照所述語音修正指令控制對所述待識別語音進行修正,并輸出初始識別結(jié)果; 所述噪聲類型檢測引擎將接收到的所述待識別語音分別與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的樣本環(huán)境為當前環(huán)境類型; 存儲所述當前環(huán)境類型至所述存儲區(qū)內(nèi)并在預(yù)設(shè)時長后拋棄所述當前環(huán)境類型; 依據(jù)所述當前環(huán)境類型調(diào)整所述初始識別結(jié)果的置信度值后,輸出最終識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述檢測存儲區(qū),當所述存儲區(qū)中未識別出前一次的環(huán)境類型時,包括: 獲取預(yù)存儲的初始環(huán)境 類型,所述初始環(huán)境類型包括安靜環(huán)境或噪聲環(huán)境; 依據(jù)所述初始環(huán)境類型與所述檢測環(huán)境類型進行判斷,輸出語音修正指令。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述依據(jù)所述初始環(huán)境類型與所述檢測環(huán)境類型進行判斷,輸出語音修正指令,包括: 判斷所述初始環(huán)境類型與所述檢測環(huán)境類型是否相同; 若相同,當所述初始環(huán)境類型與所述檢測環(huán)境類型均為噪聲環(huán)境時,輸出用于語音增強的語音修正指令;當所述初始環(huán)境類型與所述檢測環(huán)境類型均為安靜環(huán)境時,輸出用于關(guān)閉降噪處理的語音修正指令; 若不相同時,當所述初始環(huán)境類型為噪聲環(huán)境時,則輸出用于語音增強的語音修正指令,當所述初始環(huán)境類型為安靜環(huán)境時,輸出用于關(guān)閉降噪處理的語音修正指令。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,當所述存儲區(qū)中存在可識別的前一次的環(huán)境類型時,依據(jù)所述檢測環(huán)境類型與所述前一次的環(huán)境類型的比較結(jié)果輸出語音修正指令,包括: 獲取所述前一次的環(huán)境類型,所述前一次的環(huán)境類型對輸入語音的有效影響時長T ; 計算所述檢測語音輸入時與前一次語音輸入之間的時間差t,及所述前一次的環(huán)境類型對所述檢測環(huán)境類型的影響值w(t),其中,w(t)為一個隨時間t衰減的截斷函數(shù),所述w(t)的取值根據(jù)不同樣本環(huán)境下的語音訓練樣本中的樣本數(shù)據(jù)進行訓練得到,t和T的取值為正整數(shù); 判斷所述前一次的環(huán)境類型與所述檢測環(huán)境類型之間的平衡關(guān)系; 當所述前一次的環(huán)境類型和所述檢測環(huán)境類型均為噪聲環(huán)境時,則輸出用于語音增強的語音修正指令;當所述前一次的環(huán)境類型和所述檢測環(huán)境類型均為安靜環(huán)境時,則輸出用于關(guān)閉降噪處理的語音修正指令; 當所述前一次的環(huán)境類型為噪聲環(huán)境,所述檢測環(huán)境類型為安靜環(huán)境,所述w(t)>=0.5,則輸出用于語音增強的語音修正指令; 當所述前一次的環(huán)境類型為噪聲環(huán)境,所述檢測環(huán)境類型為安靜環(huán)境,所述w (t)〈0.5時,則輸出用于關(guān)閉降噪處理的語音修正指令; 當所述w(t)>T時,所述檢測環(huán)境類型為安靜環(huán)境則輸出用于關(guān)閉降噪處理的語音修正指令;所述檢測環(huán)境類型為噪聲環(huán)境則輸出用于語音增強的語音修正指令。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述噪聲類型檢測引擎將接收到的所述待識別語音分別與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的樣本環(huán)境為當前環(huán)境類型,包括: 所述噪聲類型檢測引擎對接收到的所述待識別語音的語音幀部分和噪聲幀部分進行分析,獲取所述待識別語音的噪聲水平,語音水平及信噪比SNR ; 將所述待識別語音的噪聲水平,語音水平及信噪比SNR分別與不同樣本環(huán)境下的語音訓練樣本的噪聲訓練水平,語音訓練水平及訓練SNR進行比對; 確定與所述噪聲水平差值最小的噪聲訓練水平,與所述語音水平差值最小的語音訓練水平,以及與所述SNR差值最小的訓練SNR所對應(yīng)的樣本環(huán)境為當前環(huán)境類型。
6.根據(jù)權(quán)利要求1~5中任意一項所述的方法,其特征在于,包括: 當所述當前環(huán)境類型為安靜環(huán)境時,所述存儲預(yù)設(shè)時長長于當所述當前環(huán)境類型為噪聲環(huán)境時的時長。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述噪聲環(huán)境包括:車載小噪聲環(huán)境,車載大噪聲環(huán)境,普通道路路邊環(huán)境,繁忙道路路邊環(huán)境和嘈雜環(huán)境。
8.一種語音識別設(shè)備,其特征在于,包括: 處理器,用于對輸入的語音進行采樣,獲取檢測語音和待識別語音同時輸入噪聲類型檢測引擎和語音引擎;及用于檢測存儲區(qū),當所述存儲區(qū)中存在可識別的前一次的環(huán)境類型時,依據(jù)所述噪聲類型檢測引擎輸出的檢測環(huán)境類型與所述前一次的環(huán)境類型的比較結(jié)果輸出語音修正指令;及用于依據(jù)所述噪聲類型檢測引擎輸出的所述當前環(huán)境類型調(diào)整所述語音引擎輸出的所述初始識別結(jié)果的置信度值后,輸出最終識別結(jié)果;其中,所述檢測語音所包含的語音數(shù)據(jù)的長度小于所述待識別語音所包含的語音數(shù)據(jù)的長度,所述環(huán)境類型為安靜環(huán)境或噪聲環(huán)境中的一種; 所述噪聲類型檢測引擎,用于將所述處理器輸出的所述檢測語音和待識別語音分別與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述檢測語音差值最小的所述語音訓練樣本對應(yīng)的樣本環(huán)境為檢測環(huán)境類型,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的樣本環(huán)境為當前環(huán)境類型,存儲所述當前環(huán)境類型至所述存儲區(qū)內(nèi)并在預(yù)設(shè)時長后拋棄所述當前環(huán)境類型; 語音引擎,用于按照所述處理器輸出的所述語音修正指令控制對接收到的所述待識別語音進行修正,并輸出初始識別結(jié)果。
9.根據(jù)權(quán)利要求8所述的設(shè)備,其特征在于,所述處理器,用于檢測存儲區(qū),當所述存儲區(qū)中存在可識別的前一次的環(huán)境類型時,依據(jù)所述噪聲類型檢測引擎輸出的檢測環(huán)境類型與所述前一次的環(huán)境類型進行比較輸出語音修正指令,包括: 所述處理器,用于獲取所述前一次的環(huán)境類型,及所述前一次的環(huán)境類型對輸入語音的有效影響時長T ;計算所述檢測語音輸入時與前一次語音輸入之間的時間差t,及所述前一次的環(huán)境類型對所述檢測環(huán)境類型的影響值W(t);判斷所述前一次的環(huán)境類型與所述檢測環(huán)境類型之間的平衡關(guān)系;當所述前一次的環(huán)境類型和所述檢測環(huán)境類型均為噪聲環(huán)境時,則輸出用于語音增強的語音修正指令;當所述前一次的環(huán)境類型和所述檢測環(huán)境類型均為安靜環(huán)境時,則輸出用于關(guān)閉降噪處理的語音修正指令;當所述前一次的環(huán)境類型為噪聲環(huán)境,所述檢測環(huán)境類型為安靜環(huán)境,所述w(t)>=0.5時,則輸出用于語音增強的語音修正指令;當所述前一次的環(huán)境類型為噪聲環(huán)境,所述檢測環(huán)境類型為安靜環(huán)境,所述w(t)<0.5時,則輸出用于關(guān)閉降噪處理的語音修正指令;當所述w(t)>T時,所述檢測環(huán)境類型為安靜環(huán)境則輸出用于關(guān)閉降噪處理的語音修正指令;所述檢測環(huán)境類型為噪聲環(huán)境則輸出用于語音增強的語音修正指令; 其中,w(t)為一個隨時間t衰減的截斷函數(shù),所述w(t)的取值根據(jù)不同樣本環(huán)境下的語音訓練樣本中的樣本數(shù)據(jù)進行訓練得到,t和T的取值為正整數(shù)。
10.根據(jù)權(quán)利要求8所述的設(shè)備,其特征在于,所述噪聲類型檢測引擎,用于將所述處理器輸出的所述待識別語音與不同樣本環(huán)境下的語音訓練樣本進行比對,選擇與所述待識別語音差值最小的所述語音訓練樣本所對應(yīng)的環(huán)境類型為當前環(huán)境類型,包括: 所述噪聲類型檢測引擎,用于對接收到的所述待識別語音的語音幀部分和噪聲幀部分進行分析,獲取所述待識別語音的噪聲水平,語音水平及信噪比SNR,并將所述待識別語音的噪聲水平,語音水平及信噪比SNR分別與不同樣本環(huán)境下的語音訓練樣本的噪聲訓練水平,語音訓練水平及訓練SNR進行比對,確定與所述噪聲水平差值最小的噪聲訓練水平,與所述語音水平差值最小的語音訓練水平,以及與所述SNR差值最小的訓練SNR所對應(yīng)的樣本環(huán)境為當前環(huán)境類型。
11.一種電子設(shè)備, 其特征在于,包括權(quán)利要求8~10中任意一項所述的語音識別設(shè)備,與所述語音識別設(shè)備相連的錄音設(shè)備,與所述錄音設(shè)備連接的麥克風。
【文檔編號】G10L15/00GK103632666SQ201310573521
【公開日】2014年3月12日 申請日期:2013年11月14日 優(yōu)先權(quán)日:2013年11月14日
【發(fā)明者】周均揚 申請人:華為技術(shù)有限公司