專利名稱:語音檢測方法及其設備的制作方法
技術(shù)領域:
本發(fā)明涉及語音技術(shù),特別涉及語音中的分析檢測技術(shù)。
背景技術(shù):
語音檢測技術(shù)是指在一段語音和噪聲混合的時間序列里將語音和噪聲分辨出來。 即語音檢測的目的是在語音和噪聲的混合序列中將語音和噪聲區(qū)分出來。在語音通話的時 候,由于說話者不可能一直都在說話,通過麥克風所錄到的時間序列必然會有相當長一段 時間是沒有語音的,即應該被認為是噪聲。如果對所有的時間序列都用語音壓縮方法進行 壓縮,則會造成兩個方面的浪費。具體地說,對噪聲用語音壓縮方法壓縮,首先它會造成壓 縮比特數(shù)的浪費,對噪聲的壓縮并不需要像對語音壓縮那么多比特,傳輸噪聲的能量以及 頻譜形狀即可在解碼端較好的恢復。其次它會造成運算開銷的浪費,語音編碼解碼算法比 噪聲編碼解碼算法所需要消耗的開銷大得多。因此,如果能準確的檢測出輸入時間序列是 語音還是噪聲,能同時減少不必要的比特消耗和運算開銷消耗。由于噪聲是一直存在于語音中,并且和語音信號在某一些結(jié)構(gòu)上有相似性,所以 需要設計一些算法對語音和噪聲進行分辨。目前,通用的語音檢測方法如圖1所示。語音檢測系統(tǒng)一般包含兩個主要模塊, 一是特征提取模塊,它的主要功用是從輸入信號里計算出幾個參數(shù)來表征語音信號和噪聲 信號的區(qū)別;二是分類器決策模塊,它的主要功用是根據(jù)提取的特征來完成是語音還是噪 聲的決定。其中,特征提取模塊的傳統(tǒng)算法有窄帶語音編碼標準G. 729所附帶的靜音檢測 算法中的四種特征提取算法過零率、能量、低頻段能量比和線譜對距離參數(shù)。過零率是指 提取當前時域信號穿過0的次數(shù),通常部分語音信號會有較小的過零率而噪聲通常具有較 大過零率。能量特征則是直接計算當前幀的能量,主要考慮到實際環(huán)境下語音的能量通常 較大的因素。低頻段能量比是考慮到某一部分語音信號是周期性的且頻率較低,它們的低 頻段能量占據(jù)著信號大部分的能量,而噪聲通常是在每個頻段有著均勻或者較均勻的分布 的。線譜對距離參數(shù)則是描述著語音信號的頻譜包絡特性,噪聲中這一特征并不明顯。近 年來有學者提出了基于高階統(tǒng)計量的方法,它的理論基礎則是高斯噪聲信號的某些高階 統(tǒng)計量通常為零但相應的語音的卻不為零。關(guān)于現(xiàn)有的語音檢測方法也可參見專利號為 “5450484”的美國專利。然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),由于語音是由人的肺部或者其他發(fā)聲器官發(fā)出,通過 聲道或者口鼻腔調(diào)制而產(chǎn)生的信號。而噪聲則是有多種產(chǎn)生方式,但和語音產(chǎn)生方式都會 有截然的不同。但在目前的用于表征語音信號和噪聲信號的特征提取方法中,并沒有一種 通過描述語音/噪聲產(chǎn)生模型差異的特征提取方法,來用于語音檢測。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種語音檢測方法及其設備,能根據(jù)語音/噪聲產(chǎn)生的模 型差異,檢測出語音信號。
為解決上述技術(shù)問題,本發(fā)明的實施方式提供了一種語音檢測方法,包含以下步 驟對輸入信號進行分幀,得到每一個輸入幀,每個輸入幀包含預定數(shù)目的輸入信 號;將當前輸入幀內(nèi)的輸入信號變換為二進制序列;根據(jù)二進制序列計算當前輸入幀的描述二進制組合的出現(xiàn)種類的復雜性特征值, 并根據(jù)計算出的復雜性特征值檢測出當前輸入幀內(nèi)的輸入信號是否為語音信號。本發(fā)明的實施方式還提供了一種語音檢測設備,包含分幀模塊,用于對輸入信號進行分幀,得到每一個輸入幀,每個輸入幀包含預定數(shù) 目的輸入信號;二進制變換模塊,用于將當前輸入幀內(nèi)的輸入信號變換為二進制序列;計算模塊,用于根據(jù)二進制變換模塊變換后的二進制序列,計算當前輸入幀的描 述二進制組合的出現(xiàn)種類的復雜性特征值;檢測模塊,用于根據(jù)計算模塊計算出的復雜性特征值,檢測出當前輸入幀內(nèi)的輸 入信號是否為語音信號。本發(fā)明實施方式與現(xiàn)有技術(shù)相比,主要區(qū)別及其效果在于將輸入幀內(nèi)的輸入信號變換為二進制序列,根據(jù)二進制序列計算當前輸入幀的能 描述二進制組合的出現(xiàn)種類的復雜性特征值,從而檢測出當前輸入幀內(nèi)的輸入信號是否為 語音信號。由于語音信號不同于噪聲信號,包含了聲源的特征(具有確定的基音頻率)和 聲道的特征(具有更大的諧波性),因此語音信號的組合種類將是非常之少的。所以,通過 計算描述二進制組合的出現(xiàn)種類的復雜性特征值,來檢測語音信號,實現(xiàn)了根據(jù)語音/噪 聲產(chǎn)生的模型差異,檢測出語音信號,使得語音信號能較為準確地被檢測出來。進一步地,可以在對輸入幀內(nèi)的輸入信號先進行處理后,再進行二進制序列的變 換,使得本發(fā)明的語音檢測可適用于各種需對采樣信號進行處理的情況。進一步地,直接通過與門限值的比較,將輸入幀內(nèi)的各信號變換為二進制序列,操 作簡單,方便實現(xiàn)。
圖1是根據(jù)現(xiàn)有技術(shù)中的語音檢測方法流程圖;圖2是根據(jù)本發(fā)明第一實施方式的語音檢測方法流程圖;圖3是根據(jù)本發(fā)明第三實施方式的語音檢測設備結(jié)構(gòu)示意圖。
具體實施例方式在以下的敘述中,為了使讀者更好地理解本申請而提出了許多技術(shù)細節(jié)。但是,本 領域的普通技術(shù)人員可以理解,即使沒有這些技術(shù)細節(jié)和基于以下各實施方式的種種變化 和修改,也可以實現(xiàn)本申請各權(quán)利要求所要求保護的技術(shù)方案。為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明的實施 方式作進一步地詳細描述。本發(fā)明的第一實施方式涉及一種語音檢測方法,具體流程如圖2所示。
4
在步驟210中,對輸入信號進行分幀,得到每一個輸入幀,每個輸入幀包含預定數(shù) 目的輸入信號,即將輸入信號每數(shù)個采樣點分成一幀,輸入幀可以表示為x(l) = T{s(l)+n(l)},1 = 0,1,· · ·,L-I其中,s和η分別指輸入語音信號和噪聲信號,L為幀長度。比如說,以每10個輸
入信號分為一幀,則 L 為 10,s (0) +η (0)、s (1) +η (1)、s ⑵ +η (2).......s (9) +η (9),即為第
1個、第2個......第10個采樣點。符號T表示一種變換。在本實施方式中,將變換T定
義為同等變換,即Τ{χ(1)} = χ(1),因此,也可以理解為在本實施方式中,無需對采樣點進 行變換,直接將采樣點s(l)+η (1)作為χ(1)。接著,在步驟220中,將當前輸入幀內(nèi)的輸入信號變換為二進制序列S' (1),即 s' (1)只在0和1之間取值。在本實施方式中,通過以下方式將當前輸入幀內(nèi)的各輸入信 號變換為二進制序列將輸入信號X(I)和一個門限值進行對比,如果大于門限值則取1,否則取0
, 「1, χ(1) > ηS'(I) = ^ w ‘其中,為方便計算門限值通常取0。但在實際應用中,門限值可以為任意數(shù)。需要 說明的是,也可以通過其他任意方法,將輸入信號X(I)變換為二進制序列,如
fl,成/)〉;^ 或者 Χ(/)<Τ/2 s (I)= <也就是說,在實際應用中,無論通過哪種方式對χ(1)進行變換,只需將X(I)變換 為二進制序列s' (1)即可。本實施方式中的變換為二進制序列只是一個具體的例子,直接 通過與門限值的比較,將輸入幀內(nèi)的各信號變換為二進制序列,操作簡單,方便實現(xiàn)。接著,在步驟230中,根據(jù)得到的二進制序列s' (1),計算當前輸入幀的描述二進 制組合的出現(xiàn)種類的復雜性特征值C。由于語音信號的聲源特征,與噪聲信號的不同之處在 于,某一些語音信號是通過聲帶的周期性震動產(chǎn)生的,這些語音信號具有著確定的基音頻 率。并且,語音信號的聲道特征,與噪聲信號的不同之處在于,聲源信號通過聲道會產(chǎn)生壓 強的變化,通??梢杂靡粋€濾波系統(tǒng)來表示。此濾波系統(tǒng)常常對某些頻段的信號會有著增 強的作用,這樣意味著語音信號有更大的諧波性。因此語音信號的組合種類將是非常之少 的。所以,通過計算描述二進制組合(01組合)的出現(xiàn)種類的復雜性特征值C,可較好地體 現(xiàn)出語音/噪聲產(chǎn)生的模型差異。復雜性特征值C的具體計算過程如下步驟一設定特征值C = 1,指數(shù)參數(shù)indeXl = 1和index2 = 0,同時設定步長step =1以及最大步長maxst印=1。步驟二 比較兩個值s' [indeX2+st印]和s' [indeXl+st印],如果它們是相等 的,將步長值step增加1并且轉(zhuǎn)到下一步(即步驟三)。否則轉(zhuǎn)到步驟四。步驟三當所有序列值都被訪問過了,即當indeXl+st印> L的時候,過程中止并 輸出特征值C = C+1,否則返回步驟二。步驟四當步長值超過了當前最大步長,即step > maxst印,將最大步長設定為當 前步長值maXSt印=step。如果步長值沒有超過當前最大步長,則直接進入步驟五。
5
步驟五指數(shù)參數(shù)遞增indeX2 = index2+l步驟六當兩個指數(shù)參數(shù)不等的時候,即indeXl Φ index2時,設定步長值為1,即 step = 1,然后返回步驟二。如果兩個指數(shù)參數(shù)相等,則直接進入步驟七。步驟七將特征值加1 :C = C+1,并且增加指數(shù)參數(shù)indeXl = Index^maxstep0步驟八當indeXl+l > N時,算法中止,否則返回步驟二。由于若信號是規(guī)則的,例如周期信號等,它的組合種類將是非常之少的。反過來 說,若信號是不規(guī)則,它的組合種類是相對較多的。而在噪聲污染下的規(guī)則信號的種類隨著 噪聲增多緩慢增加,這種特性也是符合語音檢測實際情況的。因此上述計算的能描述二進 制組合(01組合)的出現(xiàn)種類的特征值C,可以體現(xiàn)出語音信號的聲源和聲道特征,反映出 語音/噪聲產(chǎn)生的模型差異,是一種有效的特征。另外,可以理解,本步驟中的特征值C的計算過程是一種具體的實現(xiàn)方法。在實際 應用中,也可以通過設計其他的算法,計算出能描述二進制組合的出現(xiàn)種類的特征值。接著,在步驟240中,根據(jù)計算出的復雜性特征值C,檢測出當前輸入幀內(nèi)的語音 信號。在本步驟中,可以對特征C采用任意的方法進行模式判別決策。比如說,一種根據(jù)典 型噪聲的C值統(tǒng)計以及其和數(shù)據(jù)長度L的關(guān)系進行判決的方式如下
C < "^t,判為語音 Iog2I
<
O7^,判為噪聲 Iog2 L當然,可以理解,也可以通過將特征值C與其他門限值進行比較,來檢測語音信 號。事實上,如何根據(jù)特征值C來檢測語音信號是已有的技術(shù),因此在本實施方式中不再詳 細贅述。不難發(fā)現(xiàn),由于語音信號不同于噪聲信號,包含了聲源的特征(具有確定的基音 頻率)和聲道的特征(具有更大的諧波性),因此語音信號的組合種類將是非常之少的。簡 單地說,在本實施方式中通過計算描述二進制組合(01組合)的出現(xiàn)種類的復雜性特征值, 根據(jù)該特征值與設定門限的比較結(jié)果,來檢測語音信號(如果大于該設定門限,則認為是 語音信號,否則認為是噪聲信號),實現(xiàn)了根據(jù)語音/噪聲產(chǎn)生的模型差異,檢測出語音信 號,使得語音信號能較為準確地被檢測出來。而且,由于區(qū)別語音信號和噪聲信號在很多應用場合都有很大的意義。比如說,在 語音增強系統(tǒng)里,由于需要分辨出噪聲且用其能量或者其他統(tǒng)計特征對當前噪聲頻譜能量 和語音信號頻譜能量進行估計,而且,為了保證被抑制的噪聲不至于產(chǎn)生刺耳的效果,也需 要對噪聲和語音信號采用略有區(qū)別的處理方法,因此需要對噪聲和語音進行區(qū)別處理。類 似的,在語音識別、語音分析的系統(tǒng)里亦會需要語音的正確檢測,以及如前文所述的能同時 減少不必要的比特消耗和運算開銷消耗。因此,本實施方式中的語音檢測方法,可適用于多 種應用場合。本發(fā)明的第二實施方式涉及一種語音檢測方法,本實施方式與第一實施方式大致 相同,其主要區(qū)別在于,在第一實施方式中,T變換為同等變換,即無需對采樣點進行處理, 直接將采樣點s(l)+n(l)作為x(l)。而在本實施方式中,對輸入幀內(nèi)的各輸入信號進行采樣點處理變換,如T變換為傅里葉變換、小波變換或哈爾變換等其他各種可能的變換,進行 二進制序列變換的輸入信號為經(jīng)采樣點處理變換后的信號。由于可以在對輸入幀內(nèi)的輸入信號先進行采樣點處理后,再進行二進制序列的變 換,使得本發(fā)明的語音檢測可適用于各種需對采樣信號進行處理的情況。本發(fā)明的各方法實施方式均可以以軟件、硬件、固件等方式實現(xiàn)。不管本發(fā)明是 以軟件、硬件、還是固件方式實現(xiàn),指令代碼都可以存儲在任何類型的計算機可訪問的存儲 器中(例如永久的或者可修改的,易失性的或者非易失性的,固態(tài)的或者非固態(tài)的,固定的 或者可更換的介質(zhì)等等)。同樣,存儲器可以例如是可編程陣列邏輯(Programmable Array Logic,簡稱“PAL”)、隨機存取存儲器(Random Access Memory,簡稱“RAM”)、可編程只讀存 儲器(Programmable Read Only Memory,簡稱 “PROM”)、只讀存儲器(Read-Only Memory, 簡稱“ROM”)、電可擦除可編程只讀存儲器(Electrically Erasable Programmable ROM,簡 稱“EEPR0M”)、磁盤、光盤、數(shù)字通用光盤(Digital Versatile Disc,簡稱“DVD”)等等。本發(fā)明第三實施方式涉及一種語音檢測設備,如圖3所示,包含分幀模塊,用于對輸入信號進行分幀,得到每一個輸入幀,每個輸入幀包含預定數(shù) 目的輸入信號。二進制變換模塊,用于將當前輸入幀內(nèi)的輸入信號變換為二進制序列;計算模塊,用于根據(jù)二進制變換模塊變換后的二進制序列,計算當前輸入幀的描 述二進制組合的出現(xiàn)種類的復雜性特征值;檢測模塊,用于根據(jù)計算模塊計算出的復雜性特征值,檢測出當前輸入幀內(nèi)的輸 入信號是否為語音信號。其中,二進制變換模塊可通過以下方式將當前輸入幀內(nèi)的輸入信號變換為二進制 序列將當前輸入幀內(nèi)的各信號分別與門限值進行比較,如果大于門限值,則在二進制 序列中的對應值為1 ;如果小于或等于門限值,則在二進制序列中的對應值為0。門限值可 以為0,也可以是不為0的其他任意數(shù)。不難發(fā)現(xiàn),第一實施方式是與本實施方式相對應的方法實施方式,本實施方式可 與第一實施方式互相配合實施。第一實施方式中提到的相關(guān)技術(shù)細節(jié)在本實施方式中依然 有效,為了減少重復,這里不再贅述。相應地,本實施方式中提到的相關(guān)技術(shù)細節(jié)也可應用 在第一實施方式中。本發(fā)明第四實施方式涉及一種語音檢測設備。本實施方式與第三實施方式基本相 同,區(qū)別主要在于在第三實施方式中,直接將采樣點S(l)+n(l)作為進行二進制序列變換 的輸入信號,或者說,進行二進制序列變換的輸入信號為對采樣點S(l)+n(l)進行了同等 變換的信號。而在本實施方式中,對輸入幀內(nèi)的各輸入信號進行采樣點處理變換,如傅里葉 變換、小波變換或哈爾變換等其他各種可能的變換。也就是說,本實施方式中的語音檢測設 備還包含采樣點處理變換模塊,用于對當前輸入幀內(nèi)的各輸入信號進行采樣點處理變換, 并將經(jīng)采樣點處理變換后的信號輸出到二進制變換模塊。進行二進制序列變換的輸入信號 為經(jīng)采樣點處理變換后的信號。不難發(fā)現(xiàn),第二實施方式是與本實施方式相對應的方法實施方式,本實施方式可 與第二實施方式互相配合實施。第二實施方式中提到的相關(guān)技術(shù)細節(jié)在本實施方式中依然有效,為了減少重復,這里不再贅述。相應地,本實施方式中提到的相關(guān)技術(shù)細節(jié)也可應用 在第二實施方式中。需要說明的是,本發(fā)明各設備實施方式中提到的各單元都是邏輯單元,在物理上, 一個邏輯單元可以是一個物理單元,也可以是一個物理單元的一部分,還可以以多個物理 單元的組合實現(xiàn),這些邏輯單元本身的物理實現(xiàn)方式并不是最重要的,這些邏輯單元所實 現(xiàn)的功能的組合是才解決本發(fā)明所提出的技術(shù)問題的關(guān)鍵。此外,為了突出本發(fā)明的創(chuàng)新 部分,本發(fā)明上述各設備實施方式并沒有將與解決本發(fā)明所提出的技術(shù)問題關(guān)系不太密切 的單元引入,這并不表明上述設備實施方式并不存在其它的單元。雖然通過參照本發(fā)明的某些優(yōu)選實施方式,已經(jīng)對本發(fā)明進行了圖示和描述,但 本領域的普通技術(shù)人員應該明白,可以在形式上和細節(jié)上對其作各種改變,而不偏離本發(fā) 明的精神和范圍。
權(quán)利要求
一種語音檢測方法,其特征在于,包含以下步驟對輸入信號進行分幀,得到每一個輸入幀,每個輸入幀包含預定數(shù)目的輸入信號;將當前所述輸入幀內(nèi)的輸入信號變換為二進制序列;根據(jù)所述二進制序列計算當前輸入幀的描述二進制組合的出現(xiàn)種類的復雜性特征值,并根據(jù)計算出的復雜性特征值檢測當前所述輸入幀內(nèi)的輸入信號是否為語音信號。
2.根據(jù)權(quán)利要求1所述的語音檢測方法,其特征在于,還包含以下步驟在將當前所述輸入幀內(nèi)的輸入信號變換為二進制序列之前,對所述輸入幀內(nèi)的各輸入 信號進行采樣點處理變換;所述進行二進制序列變換的輸入信號為經(jīng)所述采樣點處理變換后的信號。
3.根據(jù)權(quán)利要求2所述的語音檢測方法,其特征在于,所述采樣點處理變換為以下之傅里葉變換、小波變換、哈爾變換。
4.根據(jù)權(quán)利要求1至3中任一項所述的語音檢測方法,其特征在于,通過以下方式將當 前輸入幀內(nèi)的輸入信號變換為二進制序列將當前所述輸入幀內(nèi)的各信號分別與門限值進行比較,如果大于所述門限值,則在所 述二進制序列中的對應值為1 ;如果小于或等于所述門限值,則在所述二進制序列中的對 應值為0。
5.根據(jù)權(quán)利要求4所述的語音檢測方法,其特征在于,所述門限值為任意數(shù)。
6.一種語音檢測設備,其特征在于,包含分幀模塊,用于對輸入信號進行分幀,得到每一個輸入幀,每個輸入幀包含預定數(shù)目的 輸入信號;二進制變換模塊,用于將當前所述輸入幀內(nèi)的輸入信號變換為二進制序列;計算模塊,用于根據(jù)所述二進制變換模塊變換后的二進制序列,計算當前輸入幀的描 述二進制組合的出現(xiàn)種類的復雜性特征值;檢測模塊,用于根據(jù)所述計算模塊計算出的復雜性特征值,檢測當前所述輸入幀內(nèi)的 輸入信號是否為語音信號。
7.根據(jù)權(quán)利要求6所述的語音檢測設備,其特征在于,所述語音檢測設備還包含采樣點處理變換模塊,用于對當前所述輸入幀內(nèi)的各輸入信號進行采樣點處理變換, 并將經(jīng)所述采樣點處理變換后的信號輸出到所述二進制變換模塊;所述進行二進制序列變換的輸入信號為經(jīng)所述采樣點處理變換后的信號。
8.根據(jù)權(quán)利要求6所述的語音檢測設備,其特征在于,所述采樣點處理變換為以下之傅里葉變換、小波變換、哈爾變換。
9.根據(jù)權(quán)利要求6所述的語音檢測設備,其特征在于,所述二進制變換模塊通過以下 方式將當前輸入幀內(nèi)的輸入信號變換為二進制序列將當前所述輸入幀內(nèi)的各信號分別與門限值進行比較,如果大于所述門限值,則在所 述二進制序列中的對應值為1 ;如果小于或等于所述門限值,則在所述二進制序列中的對 應值為0。
10.根據(jù)權(quán)利要求6所述的語音檢測設備,其特征在于,所述門限值為任意數(shù)。全文摘要
本發(fā)明涉及語音技術(shù),公開了一種語音檢測方法及其設備。本發(fā)明中,將輸入幀內(nèi)的輸入信號變換為二進制序列,根據(jù)二進制序列計算當前輸入幀的描述二進制組合的出現(xiàn)種類的復雜性特征值,從而檢測出當前輸入幀內(nèi)的語音信號。由于語音信號不同于噪聲信號,包含了聲源的特征(具有確定的基音頻率)和聲道的特征(具有更大的諧波性),因此語音信號的組合種類將是非常之少的。所以,通過計算描述二進制組合的出現(xiàn)種類的復雜性特征值,來檢測語音信號,實現(xiàn)了根據(jù)語音/噪聲產(chǎn)生的模型差異,檢測出語音信號,使得語音信號能較為準確地被檢測出來。
文檔編號G10L11/02GK101937675SQ20091005749
公開日2011年1月5日 申請日期2009年6月29日 優(yōu)先權(quán)日2009年6月29日
發(fā)明者林福輝, 黃鶴云 申請人:展訊通信(上海)有限公司