專利名稱:用于話音活動(dòng)檢測(cè)的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
背景技術(shù):
本發(fā)明涉及一種用于話音活動(dòng)檢測(cè),且特別用于檢測(cè)適用于例如編碼器等音頻信號(hào)處理單元處理的音頻信號(hào)中有無(wú)人類語(yǔ)音的方法和設(shè)備。話音活動(dòng)檢測(cè)(VAD)總地來(lái)說(shuō)是一種用來(lái)檢測(cè)信號(hào)中的話音活動(dòng)的技術(shù)。話音活動(dòng)檢測(cè)也被稱為語(yǔ)音活動(dòng)檢測(cè),或者簡(jiǎn)稱為語(yǔ)音檢測(cè)。話音活動(dòng)檢測(cè)可用于檢測(cè)有無(wú)人類語(yǔ)音的語(yǔ)音應(yīng)用中。話音活動(dòng)檢測(cè)可(例如)用于語(yǔ)音編碼或語(yǔ)音識(shí)別中。由于話音活動(dòng)檢測(cè)與多種基于語(yǔ)音的應(yīng)用相關(guān),所以已開(kāi)發(fā)了提供具有多樣化特征并在例如時(shí)延、靈敏度、精確度以及計(jì)算復(fù)雜性等要求之間折衷的各種VAD算法。一些話音活動(dòng)檢測(cè)(VAD)算法還提供對(duì)數(shù)據(jù)的分析,例如所接收到的輸入信號(hào)是有聲的、無(wú)聲的還是持續(xù)的。對(duì)包含輸入 信號(hào)幀的輸入音頻信號(hào)執(zhí)行話音活動(dòng)檢測(cè)。可由話音活動(dòng)檢測(cè)單元來(lái)執(zhí)行話音活動(dòng)檢測(cè),所述話音活動(dòng)檢測(cè)單元用指示是否存在語(yǔ)音的對(duì)應(yīng)標(biāo)志來(lái)標(biāo)記輸入信號(hào)幀。常規(guī)的話音活動(dòng)檢測(cè)(VAD)設(shè)備的性能取決于所接收到的輸入信號(hào)的具體條件以及相應(yīng)的所接收信號(hào)的信號(hào)類型或信號(hào)類別。信號(hào)類型可包括語(yǔ)音信號(hào)、音樂(lè)信號(hào)以及具有背景噪聲的語(yǔ)音信號(hào)。此外,信號(hào)的信號(hào)條件可變化,舉例來(lái)說(shuō),所接收到的音頻信號(hào)可具有較高的信噪比SNR或較低的信噪比SNR。在接收輸入音頻信號(hào)時(shí),常規(guī)的話音活動(dòng)檢測(cè)設(shè)備可適合于所接收的輸入信號(hào),且可給出精確的(VAD)決策。然而,根據(jù)信號(hào)類別和信號(hào)條件,常規(guī)的話音活動(dòng)檢測(cè)器也可能產(chǎn)生不良結(jié)果,即在檢測(cè)所施加的輸入信號(hào)的話音活動(dòng)時(shí),所述檢測(cè)器可能具有較低的話音檢測(cè)精確度。而且,所施加的輸入信號(hào)的信號(hào)條件和信號(hào)類型可隨著時(shí)間而改變,且因此,常規(guī)話音活動(dòng)檢測(cè)設(shè)備對(duì)于信號(hào)類型或信號(hào)條件改變或變化來(lái)說(shuō)是不穩(wěn)固的。因此,本發(fā)明的目的是提供一種與用常規(guī)的話音活動(dòng)檢測(cè)方法或設(shè)備相比產(chǎn)生整體較好的檢測(cè)性能的用于執(zhí)行話音活動(dòng)檢測(cè)的方法和設(shè)備。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提供一種話音活動(dòng)檢測(cè)設(shè)備,其包括信號(hào)條件分析單元,其分析輸入信號(hào)的至少一個(gè)信號(hào)參數(shù),以檢測(cè)所述輸入信號(hào)的信號(hào)條件,至少兩個(gè)話音活動(dòng)檢測(cè)單元,其包括不同的話音檢測(cè)特性,其中每一話音活動(dòng)檢測(cè)單元單獨(dú)執(zhí)行對(duì)所述輸入信號(hào)的話音活動(dòng)檢測(cè)或話音活動(dòng)檢測(cè)處理,以提供話音活動(dòng)檢測(cè)決策;以及決策組合單元,其根據(jù)所檢測(cè)到的信號(hào)條件而組合由所述話音活動(dòng)檢測(cè)單元提供的話音活動(dòng)檢測(cè)決策,以提供組合話音活動(dòng)檢測(cè)決策。每一話音活動(dòng)檢測(cè)單元具有特定的檢測(cè)特性。所述檢測(cè)特性在概念上與接收器工作特性(ROC)具有密切關(guān)系。在信號(hào)檢測(cè)理論中,接收器工作特性(ROC)(或簡(jiǎn)單來(lái)說(shuō),ROC曲線)是二進(jìn)制分類器系統(tǒng)在其辨別閾值改變時(shí)的靈敏度或真正率(true positive rate)與假正率(false positive rate)的圖表。對(duì)于話音檢測(cè)系統(tǒng),真正率是主動(dòng)檢測(cè)率,且假正率是非主動(dòng)誤檢率??蓪⒃捯艋顒?dòng)檢測(cè)系統(tǒng)的檢測(cè)特性視為特殊的ROC曲線,所述曲線的變化辨別閾值由變化的信號(hào)條件替代??蓪⑿盘?hào)條件定義為多條件(例如,輸入信號(hào)電平、輸入信號(hào)SNR、輸入信號(hào)的背景噪聲類型、輸入信號(hào)的話音活動(dòng)因子等)的某一組合。因此,不同輸入信號(hào)的話音檢測(cè)特性(即,檢測(cè)與誤檢(也稱為假告警))是不同的。一般來(lái)說(shuō),如果兩個(gè)話音活動(dòng)檢測(cè)單元的對(duì)于輸入信號(hào)的至少一個(gè)實(shí)例的決策是不同的,那么其將具有不同的話音活動(dòng)檢測(cè)特性。因此對(duì)于某一信號(hào)條件,所述兩個(gè)VAD的性能將不同。舉例來(lái)說(shuō),如果以不同方式調(diào)諧話音活動(dòng)檢測(cè)算法,那么可針對(duì)不同的話音活動(dòng)檢測(cè)算法獲得不同的特性,或者可通過(guò)改變(即使輕微地)所述算法所使用的參數(shù)(例如,閾值、用于分析的頻帶的數(shù)目等)來(lái)從同一算法獲得不同的特性。在本發(fā)明的第一方面的一可實(shí)施方案中,話音活動(dòng)檢測(cè)設(shè)備包括用于接收包括信 號(hào)中貞的輸入信號(hào)的信號(hào)入口。在本發(fā)明的第一方面的一可實(shí)施方案中,話音活動(dòng)檢測(cè)單元由基于信噪比的話音活動(dòng)檢測(cè)單元形成。使用基于信噪比的話音活動(dòng)檢測(cè)單元增加了根據(jù)本發(fā)明的話音活動(dòng)檢測(cè)設(shè)備的精確度和性能。在本發(fā)明的第一方面的一可實(shí)施方案中,每一基于SNR的話音活動(dòng)檢測(cè)單兀將輸入信號(hào)幀分成若干個(gè)子頻帶。在本發(fā)明的第一方面的一可實(shí)施方案中,每一基于SNR的話音活動(dòng)檢測(cè)器單兀在逐幀基礎(chǔ)上處理輸入信號(hào)。通過(guò)計(jì)算輸入幀的每一子帶的信噪比SNR,進(jìn)一步增加了根據(jù)本發(fā)明的話音活動(dòng)檢測(cè)設(shè)備的精確度。在本發(fā)明的第一方面的另一可實(shí)施方案中,每一基于信噪比SNR的話音活動(dòng)檢測(cè)單元將輸入信號(hào)幀分成若干個(gè)子頻帶,并為每一子頻帶計(jì)算信噪比SNR,其中求出所有子頻帶的所計(jì)算出的信噪比SNR的總和,以提供分段信噪比SSNR。在本發(fā)明的第一方面的另一可實(shí)施方案中,將由話音活動(dòng)檢測(cè)單元計(jì)算出的分段信噪比SSNR與閾值進(jìn)行比較,以提供各個(gè)的話音活動(dòng)檢測(cè)單元的中間話音活動(dòng)檢測(cè)決策,其中所述中間話音活動(dòng)檢測(cè)決策或其經(jīng)處理的版本形成話音活動(dòng)檢測(cè)決策。因此,話音活動(dòng)檢測(cè)設(shè)備的每一話音活動(dòng)檢測(cè)單元基于分段信噪比SNR與對(duì)應(yīng)的閾值之間的比較而做出中間話音活動(dòng)檢測(cè)決策。在一可實(shí)施方案中,話音活動(dòng)檢測(cè)單元的閾值是自適應(yīng)的,且可借助于對(duì)應(yīng)的控制信號(hào)而調(diào)整,所述對(duì)應(yīng)的控制信號(hào)借助于配置接口而施加到話音活動(dòng)檢測(cè)設(shè)備。由于話音活動(dòng)檢測(cè)設(shè)備內(nèi)的每一話音活動(dòng)檢測(cè)單元包括可經(jīng)由所述接口而調(diào)整的對(duì)應(yīng)的自適應(yīng)閾值,因此,可實(shí)現(xiàn)對(duì)每一所述不同的話音活動(dòng)檢測(cè)單元的性能的精細(xì)或準(zhǔn)確的調(diào)諧。這又再次增加了根據(jù)本發(fā)明的話音活動(dòng)檢測(cè)設(shè)備的精確度。在本發(fā)明的第一方面的另一可實(shí)施方案中,通過(guò)非線性函數(shù)來(lái)修改對(duì)應(yīng)子頻帶而計(jì)算出的每一信噪比SNR,以提供對(duì)應(yīng)的經(jīng)修改的信噪比mSNR,其中由相應(yīng)的話音活動(dòng)檢測(cè)單元求出經(jīng)修改的信噪比mSNR的總和,以獲得經(jīng)分段的信噪比SSNR。
所述非線性函數(shù)的提出允許以不同方式修改信噪比SNR,以用于為不同的話音活動(dòng)檢測(cè)單元提供不同的話音活動(dòng)檢測(cè)特性,從而可實(shí)現(xiàn)對(duì)不同的話音活動(dòng)檢測(cè)單元的精確調(diào)諧,并根據(jù)所接收的輸入音頻信號(hào)的具體可能的信號(hào)條件和/或信號(hào)類型而調(diào)整其相應(yīng)的話音檢測(cè)特性。在本發(fā)明的第一方面的一可實(shí)施方案中,每一話音活動(dòng)檢測(cè)單元的中間話音活動(dòng)檢測(cè)決策經(jīng)過(guò)具有對(duì)應(yīng)的拖尾時(shí)間的拖尾處理過(guò)程,以提供所述話音活動(dòng)檢測(cè)單元的最終話音活動(dòng)決策。所述拖尾時(shí)間形成等待時(shí)間周期,以使話音活動(dòng)檢測(cè)決策變得平滑,并減少話音活動(dòng)檢測(cè)單元作出的與在所接收的音頻信號(hào)內(nèi)的話語(yǔ)突峰的尾部進(jìn)行削波相關(guān)聯(lián)的潛在誤分類。因此,此具體實(shí)施方案的優(yōu)點(diǎn)在于,減少了對(duì)話語(yǔ)突峰的削波,并改進(jìn)了信號(hào)的語(yǔ)音質(zhì)量和清晰度。 在本發(fā)明的第一方面的一可實(shí)施方案中,話音活動(dòng)檢測(cè)設(shè)備內(nèi)的每一話音活動(dòng)檢測(cè)單元的話音檢測(cè)特性是可調(diào)諧的(例如,借助于配置接口)。在本發(fā)明的第一方面的一可實(shí)施方案中,可通過(guò)調(diào)整或改變相應(yīng)的話音活動(dòng)檢測(cè)單元所使用的子頻帶的數(shù)目來(lái)調(diào)諧每一話音活動(dòng)檢測(cè)單元的話音檢測(cè)特性。在本發(fā)明的第一方面的另一可實(shí)施方案中,可通過(guò)調(diào)整或改變相應(yīng)的話音活動(dòng)檢測(cè)單元所使用的非線性函數(shù)來(lái)調(diào)諧每一話音活動(dòng)檢測(cè)單元的話音檢測(cè)特性。在本發(fā)明的第一方面的另一可實(shí)施方案中,可通過(guò)調(diào)整或改變相應(yīng)的話音活動(dòng)檢測(cè)單元所使用的拖尾處理的拖尾時(shí)間來(lái)調(diào)諧每一話音活動(dòng)檢測(cè)單元的話音檢測(cè)特性。在本發(fā)明的第一方面的另一可實(shí)施方案中,所述設(shè)備包括以不同的方式(例如,通過(guò)不同數(shù)目的子頻帶或頻率分析)實(shí)施的不同的話音活動(dòng)檢測(cè)單元,且所述話音活動(dòng)檢測(cè)單元可使用不同的方法來(lái)計(jì)算子帶信噪比、將不同的修改應(yīng)用于所計(jì)算出的子帶信噪t匕,且可使用不同的方法或方式來(lái)估算背景噪聲的子帶能量,且可進(jìn)一步使用不同的閾值或應(yīng)用不同的拖尾機(jī)制。因此,對(duì)于所接收的輸入音頻信號(hào)的不同信號(hào)條件,不同的話音活動(dòng)檢測(cè)單元具有不同的性能。對(duì)于一個(gè)信號(hào)條件,一個(gè)話音活動(dòng)檢測(cè)單元可優(yōu)于另一話音活動(dòng)檢測(cè)單元,但對(duì)于另一信號(hào)條件,可能會(huì)較差。除了對(duì)于給定的信號(hào)條件之外,一個(gè)話音活動(dòng)檢測(cè)單元與另一話音活動(dòng)檢測(cè)單元相比,可對(duì)輸入音頻信號(hào)的一個(gè)分段執(zhí)行較好,但可能對(duì)輸入音頻信號(hào)的另一分段執(zhí)行較差。通過(guò)提供各自單獨(dú)地執(zhí)行對(duì)輸入信號(hào)的不同的話音活動(dòng)檢測(cè)的不同的話音活動(dòng)檢測(cè)單元來(lái)提供話音活動(dòng)檢測(cè)決策,通過(guò)適當(dāng)組合多個(gè)話音活動(dòng)檢測(cè)單元的優(yōu)點(diǎn)來(lái)改進(jìn)了整體性能。在本發(fā)明的第一方面的一可實(shí)施方案中,信號(hào)條件分析單元按照輸入信號(hào)的信號(hào)參數(shù)而分析輸入信號(hào)的長(zhǎng)期信噪比,以檢測(cè)所接收的輸入信號(hào)的信號(hào)條件。在本發(fā)明的第一方面的另一可實(shí)施方案中,信號(hào)條件分析單元按照輸入信號(hào)的信號(hào)參數(shù)而分析所接收的輸入信號(hào)的背景噪聲波動(dòng),以檢測(cè)所接收的輸入信號(hào)的信號(hào)條件。在本發(fā)明的第一方面的又一可實(shí)施方案中,信號(hào)條件分析單元按照所接收的輸入信號(hào)的信號(hào)參數(shù)而分析輸入信號(hào)的長(zhǎng)期信噪比和背景噪聲波動(dòng),以檢測(cè)所接收的輸入信號(hào)的信號(hào)條件。長(zhǎng)期信噪比有可能為所接收的輸入信號(hào)的若干個(gè)有源信號(hào)幀(例如,5到10個(gè)有源信號(hào)幀)的信噪比,或者為所接收的輸入信號(hào)的有源信號(hào)幀的信噪比的移動(dòng)平均值。可通過(guò)SNR_ = a*SNR_+ (1-a) *SNR0來(lái)計(jì)算移動(dòng)平均值,其中SNR_為移動(dòng)平均值,SNR0為最近的有源信號(hào)幀的SNR,a為在長(zhǎng)期估算中可為O. 9的遺忘因子。在本發(fā)明的第一方面的另一可實(shí)施方案中,信號(hào)條件分析單元按照所接收的輸入信號(hào)的信號(hào)參數(shù)而分析指示當(dāng)前信號(hào)是處于主動(dòng)周期還是非主動(dòng)周期的信號(hào)狀態(tài)。在本發(fā)明的第一方面的另一實(shí)施方案中,信號(hào)條件分析單元按照所述輸入信號(hào)的信號(hào)參數(shù)而分析輸入信號(hào)的能量度量。信號(hào)條件分析單元可進(jìn)一步適于分別在能量度量大于預(yù)定的或自適應(yīng)閾值的情況下,確定輸入信號(hào)處于主動(dòng)周期期間或主動(dòng)周期中,且/或在能量度量小于預(yù)定的或自適應(yīng)閾值的情況下,確定輸入信號(hào)處于非主動(dòng)周期期間或非主動(dòng)周期中。在本發(fā)明的第一方面的另一可實(shí)施方案中,信號(hào)條件分析單元可使用其它信號(hào)參 數(shù)或信號(hào)參數(shù)的組合,以及例如所接收的輸入信號(hào)的信號(hào)譜的音調(diào)、譜傾斜或譜包絡(luò)。在本發(fā)明的第一方面的一可實(shí)施方案中,所述話音活動(dòng)檢測(cè)單元所提供的話音活動(dòng)檢測(cè)決策是由決策標(biāo)志形成。在本發(fā)明的第一方面的一可實(shí)施方案中,根據(jù)決策組合單元的組合邏輯而組合由話音活動(dòng)檢測(cè)單元產(chǎn)生的決策標(biāo)志,以提供可由根據(jù)本發(fā)明的話音活動(dòng)檢測(cè)設(shè)備輸出的組合的話音活動(dòng)檢測(cè)決策。在本發(fā)明的第一方面的一可實(shí)施方案中,由所述信號(hào)條件分析單元分析的所述信號(hào)參數(shù)為長(zhǎng)期信噪比,所述長(zhǎng)期信噪比被分類為三個(gè)不同的信噪比區(qū)域,包括高SNR區(qū)域、中等SNR區(qū)域以及低SNR區(qū)域,其中所述決策組合單元基于由所述話音活動(dòng)檢測(cè)單元根據(jù)長(zhǎng)期信噪比所落在的SNR區(qū)域而提供的決策標(biāo)志來(lái)提供所述組合的話音活動(dòng)檢測(cè)決策。在本發(fā)明的第一方面的一可實(shí)施方案中,所述話音活動(dòng)檢測(cè)設(shè)備包括具有第一話音活動(dòng)檢測(cè)特性的第一話音活動(dòng)檢測(cè)單元和具有第二話音活動(dòng)檢測(cè)特性的第二話音活動(dòng)檢測(cè)單元,其中第一話音活動(dòng)檢測(cè)特性不同于第二話音活動(dòng)檢測(cè)特性,其中第一話音活動(dòng)檢測(cè)單元執(zhí)行輸入信號(hào)的或基于輸入信號(hào)的第一話音活動(dòng)檢測(cè),以提供第一話音活動(dòng)檢測(cè),其中第二話音活動(dòng)檢測(cè)單元執(zhí)行輸入信號(hào)的或基于輸入信號(hào)的第二話音活動(dòng)檢測(cè),以提供第二話音活動(dòng)檢測(cè),其中由所述信號(hào)條件分析單元分析的所述信號(hào)參數(shù)為長(zhǎng)期信噪t匕,所述長(zhǎng)期信噪比被分類為三個(gè)不同的信噪比區(qū)域,包括高SNR區(qū)域、中等SNR區(qū)域以及低SNR區(qū)域,其中所述決策組合單元根據(jù)長(zhǎng)期信噪比所落在的SNR區(qū)域來(lái)提供所述組合的話音活動(dòng)檢測(cè)決策,且其中決策組合單元適于在信號(hào)參數(shù)處于低SNR區(qū)域中的情況下,選擇第一話音活動(dòng)檢測(cè)決策作為組合的話音活動(dòng)檢測(cè)決策,其中決策組合單元適于在信號(hào)參數(shù)處于高SNR區(qū)域中的情況下,選擇第二話音活動(dòng)檢測(cè)決策作為組合的話音活動(dòng)檢測(cè)決策,且其中決策組合單元適于在信號(hào)參數(shù)處于中等SNR區(qū)域中的情況下,應(yīng)用邏輯“與”或邏輯“或”來(lái)組合第一話音活動(dòng)檢測(cè)決策和第二話音活動(dòng)檢測(cè)決策,以獲得組合的話音活動(dòng)檢測(cè)決策。在本發(fā)明的第一方面的一可實(shí)施方案中,由決策組合單元提供的組合的話音活動(dòng)檢測(cè)決策經(jīng)過(guò)具有預(yù)定拖尾時(shí)間的拖尾處理。這允許使話音活動(dòng)檢測(cè)決策變得平滑,并減少由話音活動(dòng)檢測(cè)單元作出的(例如)與對(duì)話語(yǔ)突峰的削波相關(guān)聯(lián)的其它可能誤分類。在本發(fā)明的第一方面的一可實(shí)施方案中,將由所述話音活動(dòng)檢測(cè)設(shè)備提供的所述組合的話音活動(dòng)決策應(yīng)用于編碼器。此編碼器可由語(yǔ)音編碼器形成。
在本發(fā)明的第一方面的另一可實(shí)施方案中,包括由話音活動(dòng)檢測(cè)單元提供的話音活動(dòng)檢測(cè)決策的話音活動(dòng)檢測(cè)決策向量通過(guò)決策組合單元與一自適應(yīng)加權(quán)矩陣相乘,以計(jì)算所述組合的話音活動(dòng)檢測(cè)決策。在本發(fā)明的第一方面的又一可實(shí)施方案中,所述決策組合單元所使用的加權(quán)矩陣為具有預(yù)定矩陣值的預(yù)定加權(quán)矩陣。在本發(fā)明的第一方面的一可實(shí)施方案中,包括話音活動(dòng)檢測(cè)單元的分段信噪比SSNR的分段信噪比SSNR向量與自適應(yīng)加權(quán)矩陣相乘,以計(jì)算組合的分段信噪比cSSNR的值。在本發(fā)明的第一方面的又一可實(shí)施方案中,包括話音活動(dòng)檢測(cè)單元閾值的閾值向量與自適應(yīng)加權(quán)矩陣相乘,以計(jì)算組合的決策閾值。
在本發(fā)明的第一方面的又一可實(shí)施方案中,將所計(jì)算出的組合的分段信噪比mSSNR的值與組合的決策閾值相互進(jìn)行比較,以提供組合的話音活動(dòng)檢測(cè)決策。在使用例如話音活動(dòng)決策向量、加權(quán)矩陣以及分段信噪比向量和閾值向量等向量時(shí),可加速用于提供組合的話音活動(dòng)檢測(cè)決策的計(jì)算過(guò)程并減少所需要的計(jì)算時(shí)間,且還可提供對(duì)話音活動(dòng)檢測(cè)設(shè)備的更精確的調(diào)諧。根據(jù)本發(fā)明的第二方面,提供一種話音活動(dòng)檢測(cè)設(shè)備,所述話音活動(dòng)檢測(cè)設(shè)備包括信號(hào)條件分析單元,其分析輸入信號(hào)的至少一個(gè)信號(hào)參數(shù),以檢測(cè)所述輸入信號(hào)的信號(hào)條件;至少兩個(gè)話音活動(dòng)檢測(cè)單元,其包括不同的活動(dòng)話音檢測(cè)處理特性;以及決策組合單元,其適于提供組合的話音活動(dòng)檢測(cè)決策(cVADD),其中包括話音活動(dòng)檢測(cè)單元的分段信噪比(SSNR)的分段信噪比(SSNR)向量與自適應(yīng)加權(quán)矩陣相乘,以計(jì)算組合的分段信噪比(cSSNR)的值,且其中包括話音活動(dòng)檢測(cè)單元閾值的閾值向量與自適應(yīng)加權(quán)矩陣相乘,以計(jì)算組合的決策閾值(cthr),所述組合的決策閾值(cthr)與所述所計(jì)算出的組合的分段信噪比(cSSNR)的值進(jìn)行比較,以提供組合的話音活動(dòng)檢測(cè)決策(cVADD)。根據(jù)本發(fā)明的第三方面,提供一種用于對(duì)音頻信號(hào)進(jìn)行編碼的編碼器,其中所述編碼器包括話音活動(dòng)檢測(cè)設(shè)備,所述話音活動(dòng)檢測(cè)設(shè)備具有信號(hào)條件分析單元,其分析輸入信號(hào)的至少一個(gè)信號(hào)參數(shù),以檢測(cè)所述輸入信號(hào)的信號(hào)條件,至少兩個(gè)話音活動(dòng)檢測(cè)單元,其包括不同的話音檢測(cè)特性,其中每一話音活動(dòng)檢測(cè)單元單獨(dú)執(zhí)行對(duì)所述輸入信號(hào)的話音活動(dòng)檢測(cè),以提供話音活動(dòng)檢測(cè)決策,以及決策組合單元,其根據(jù)所檢測(cè)到的信號(hào)條件而組合由所述話音活動(dòng)檢測(cè)單元提供的話音活動(dòng)檢測(cè)決策,以提供組合的話音活動(dòng)檢測(cè)決策。根據(jù)本發(fā)明的第四方面,提供一種語(yǔ)音通信裝置,其包括語(yǔ)音編碼器,所述語(yǔ)音編碼器用于對(duì)音頻信號(hào)進(jìn)行編碼,所述語(yǔ)音編碼器具有話音活動(dòng)檢測(cè)設(shè)備,所述話音活動(dòng)檢測(cè)設(shè)備包括信號(hào)條件分析單元,其分析輸入信號(hào)的至少一個(gè)信號(hào)參數(shù),以檢測(cè)所述輸入信號(hào)的信號(hào)條件,至少兩個(gè)話音活動(dòng)檢測(cè)單元,其包括不同的話音檢測(cè)特性,其中每一話音活動(dòng)檢測(cè)單元單獨(dú)執(zhí)行對(duì)所述輸入信號(hào)的話音活動(dòng)檢測(cè),以提供話音活動(dòng)檢測(cè)決策,以及決策組合單元,其根據(jù)所檢測(cè)到的信號(hào)條件而組合由所述話音活動(dòng)檢測(cè)單元提供的話音活動(dòng)決策,以提供組合的話音活動(dòng)檢測(cè)決策。所述語(yǔ)音通信裝置可形成例如音頻會(huì)議系統(tǒng)、語(yǔ)音識(shí)別系統(tǒng)、語(yǔ)音編碼系統(tǒng)或免提移動(dòng)電話等語(yǔ)音通信系統(tǒng)的一部分。根據(jù)本發(fā)明的第四方面的語(yǔ)音通信裝置可用于蜂窩式無(wú)線電系統(tǒng)中,例如GSM或LTE或CDMA系統(tǒng)中,其中不連續(xù)傳輸DTX模式可由根據(jù)本發(fā)明的第一方面的話音活動(dòng)檢測(cè)VAD設(shè)備控制。在不連續(xù)傳輸DTX模式中,有可能在話音活動(dòng)檢測(cè)設(shè)備檢測(cè)到不存在人類語(yǔ)音的時(shí)間周期期間切斷電路,以節(jié)約資源,并增強(qiáng)系統(tǒng)容量(例如,通過(guò)減少便攜式裝置中的代碼信道干擾和功耗)。在以上實(shí)施方案中,所述話音活動(dòng)檢測(cè)接收包含多個(gè)信號(hào)幀的一個(gè)數(shù)字音頻信號(hào),其中,所述每個(gè)信號(hào)幀包括多個(gè)數(shù)字音頻樣本。在這些實(shí)施方案形式中,話音活動(dòng)檢測(cè)設(shè)備在數(shù)字域中執(zhí)行信號(hào)處理。在數(shù)字域中的處理的益處在于,可由硬接線數(shù)字電路來(lái)執(zhí) 行信號(hào)處理,或者通過(guò)軟件應(yīng)用程序來(lái)執(zhí)行對(duì)所接收的數(shù)字音頻輸入信號(hào)的處理??赏ㄟ^(guò)由例如微型計(jì)算機(jī)等處理單元執(zhí)行的話音活動(dòng)檢測(cè)程序來(lái)執(zhí)行對(duì)所接收的輸入音頻信號(hào)的信號(hào)幀的處理。可借助于提供更多靈活性的對(duì)應(yīng)接口來(lái)所述的此微型計(jì)算機(jī)進(jìn)行編程。根據(jù)本發(fā)明的第五方面,提供一種用于執(zhí)行話音活動(dòng)檢測(cè)的方法,所述方法包括以下步驟分析輸入信號(hào)的至少一個(gè)信號(hào)參數(shù),以檢測(cè)輸入信號(hào)的信號(hào)條件;用至少兩個(gè)不同的話音檢測(cè)特性來(lái)單獨(dú)執(zhí)行話音活動(dòng)檢測(cè),以提供不同的話音活動(dòng)檢測(cè)決策,以及根據(jù)所檢測(cè)到的信號(hào)條件而組合話音活動(dòng)檢測(cè)決策,以提供組合的話音活動(dòng)檢測(cè)決策。根據(jù)第五方面的用于執(zhí)行話音活動(dòng)檢測(cè)的方法能夠抵御外部影響。在本發(fā)明的第五方面的一可實(shí)施方案中,通過(guò)執(zhí)行可由微型計(jì)算機(jī)執(zhí)行的對(duì)應(yīng)的話音活動(dòng)檢測(cè)程序來(lái)執(zhí)行所述方法。在另一可實(shí)施方案中,由硬接線電路來(lái)執(zhí)行用于執(zhí)行話音活動(dòng)檢測(cè)的方法。用硬接線電路執(zhí)行所述方法的優(yōu)點(diǎn)在于處理速度極高。用于借助于軟件程序來(lái)執(zhí)行穩(wěn)固的話音活動(dòng)檢測(cè)的方法的實(shí)施方案的益處在于,所述方法更靈活,且更易于根據(jù)不同的信號(hào)條件和信號(hào)類型而調(diào)整。在本發(fā)明的前述方面的另一可實(shí)施方案形式中,話音活動(dòng)檢測(cè)單元可由不基于SNR的話音活動(dòng)檢測(cè)單元形成。此類不基于SNR的話音活動(dòng)檢測(cè)單元可為(但不限于)基于熵的話音活動(dòng)檢測(cè)單元、基于譜包絡(luò)的話音活動(dòng)檢測(cè)單元、基于較高統(tǒng)計(jì)的話音活動(dòng)檢測(cè)單元、混合話音活動(dòng)檢測(cè)單元等。與基于SNR的話音活動(dòng)檢測(cè)單元形成對(duì)比,舉例來(lái)說(shuō),基于熵的話音活動(dòng)檢測(cè)單元將輸入幀譜分成若干子帶,計(jì)算每一子帶的能量、計(jì)算分布在每一子帶中的輸入幀能量的概率,并基于所獲得的概率來(lái)計(jì)算輸入幀的熵。隨后通過(guò)將所獲得的熵與閾值進(jìn)行比較來(lái)獲得話音活動(dòng)決策。下文參看附圖描述本發(fā)明的不同方面的可實(shí)施方案和實(shí)施例。
圖I為根據(jù)本發(fā)明的第一方面的話音活動(dòng)檢測(cè)設(shè)備的框圖2為連接到根據(jù)本發(fā)明的第二方面的話音活動(dòng)檢測(cè)設(shè)備的編碼器的框圖;圖3為根據(jù)本發(fā)明的第四方面的話音活動(dòng)檢測(cè)方法的一可實(shí)施方案的流程圖。
具體實(shí)施例方式圖I展示話音活動(dòng)檢測(cè)設(shè)備I的框圖,以說(shuō)明本發(fā)明的第一方面。話音活動(dòng)檢測(cè)設(shè)備I包括用于接收輸入信號(hào)的至少一個(gè)信號(hào)入口 2。此輸入信號(hào)為(例如)由信號(hào)幀組成的音頻信號(hào)。所述音頻信號(hào)可為由多個(gè)信號(hào)幀序列形成的數(shù)字信號(hào),每一所述信號(hào)幀包括音頻信號(hào)的至少一個(gè)數(shù)據(jù)樣本??捎蛇B接到信號(hào)源(例如,如用戶設(shè)備裝置或移動(dòng)電話等語(yǔ)音通信裝置的麥克風(fēng))的模數(shù)轉(zhuǎn)換器來(lái)提供所述應(yīng)用到所述語(yǔ)音活動(dòng)檢測(cè)設(shè)備中的數(shù)字信號(hào)。在所示的實(shí)施方案中,話音活動(dòng)檢測(cè)設(shè)備I包括信號(hào)條件分析單元3,所述信號(hào)條件分析單元3分析所述輸入信號(hào)的至少一個(gè)信號(hào)參數(shù),以檢測(cè)相應(yīng)的輸入信號(hào)的信號(hào)條
件。如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I包括若干個(gè)話音活動(dòng)檢測(cè)單元4-1、4-2.....4-N,
其中N為> 2的整數(shù),所述話音活動(dòng)檢測(cè)單元連接到話音活動(dòng)檢測(cè)設(shè)備I的信號(hào)入口 2。每一第i個(gè)(i為整數(shù))話音活動(dòng)檢測(cè)單元4-i單獨(dú)執(zhí)行對(duì)所施加的輸入信號(hào)的話音活動(dòng)檢測(cè),以提供對(duì)應(yīng)的話音活動(dòng)檢測(cè)決策VADD。在一可實(shí)施方案中,話音活動(dòng)檢測(cè)設(shè)備I包括至少兩個(gè)話音活動(dòng)檢測(cè)單元4-1、4-2。話音活動(dòng)檢測(cè)設(shè)備I進(jìn)一步包括決策組合單元5,所述決策組合單元5根據(jù)檢測(cè)到的信號(hào)條件SC而組合由話音活動(dòng)檢測(cè)單元4-i提供的話音活動(dòng)檢測(cè)決策VADD,以提供組合的話音活動(dòng)檢測(cè)決策cVADD。如圖I中所示,話音活動(dòng)檢測(cè)設(shè)備I在信號(hào)出口 6處輸出此組合的話音活動(dòng)檢測(cè)決策cVADD。在如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I的一可實(shí)施方案中,話音活動(dòng)檢測(cè)單元4-i是由多個(gè)基于信噪比(SNR)的話音活動(dòng)檢測(cè)單元形成的。在一可實(shí)施方案中,所有話音活動(dòng)檢測(cè)單元4-i均由基于信噪比(SNR)的話音活動(dòng)檢測(cè)單元形成。在另一可實(shí)施方案中,話音活動(dòng)檢測(cè)單元4-i的至少一部分是由基于信噪比(SNR)的話音活動(dòng)檢測(cè)單元形成的。在一可實(shí)施方案中,每一基于信噪比(SNR)的話音活動(dòng)檢測(cè)單元4-i將所接收的輸入信號(hào)的輸入信號(hào)幀分成若干個(gè)子頻帶。子頻帶的數(shù)目可變化。基于信噪比(SNR)的話音活動(dòng)檢測(cè)單元4-i進(jìn)一步為每一子頻帶計(jì)算信噪比SNR,并求出所有子頻帶的所計(jì)算出的信噪比SNR的總和,以提供分段信噪比SSNR,可將所述分段信噪比SSNR與閾值進(jìn)行比較,以將由相應(yīng)的話音活動(dòng)檢測(cè)單元4-i提供的中間話音活動(dòng)檢測(cè)決策輸出提供給決策組合單元5。在一可實(shí)施方案中,與所計(jì)算出的分段信噪比SSNR進(jìn)行比較的閾值可為自適應(yīng)閾值,其可借助于話音活動(dòng)檢測(cè)設(shè)備I的配置接口而改變或調(diào)整。在一可實(shí)施方案中,如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I的每一話音活動(dòng)檢測(cè)單元4-i的話音檢測(cè)特性是可調(diào)諧的。在一可實(shí)施方案中,可調(diào)整話音活動(dòng)檢測(cè)單元4-i所使用的子頻帶的數(shù)目。舉例來(lái)說(shuō),話音活動(dòng)檢測(cè)單元4-i可通過(guò)使用(例如)濾波器組來(lái)將輸入信號(hào)幀分成九個(gè)子帶。另外,話音活動(dòng)檢測(cè)單元4-i可通過(guò)快速傅里葉變換FFT而將輸入幀變換到頻域中,并通過(guò)對(duì)FFT功率密度頻段進(jìn)行分區(qū)而將輸入幀分成(例如)十九個(gè)子頻帶。在如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I的一可實(shí)施方案中,可通過(guò)非線性函數(shù)來(lái)修改為對(duì)應(yīng)的子頻帶而計(jì)算出的每一信噪比SNR,以提供經(jīng)修改的信噪比mSNR。這些經(jīng)修改的信噪比mSNR加總后即可獲得分段信噪比SSNR。非線性函數(shù)的運(yùn)用允許調(diào)諧相應(yīng)的話音活動(dòng)檢測(cè)單元4-i的話音檢測(cè)特性。在一可實(shí)施方案中,可通過(guò)改變相應(yīng)的話音活動(dòng)檢測(cè)單元4-i所使用的非線性函數(shù)來(lái)調(diào)諧每一話音活動(dòng)檢測(cè)單元的話音檢測(cè)特性。在如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I的又一實(shí)施方案中,每一話音活動(dòng)檢測(cè)單元4-i的中間話音活動(dòng)檢測(cè)決策可經(jīng)過(guò)具有對(duì)應(yīng)的拖尾時(shí)間的對(duì)應(yīng)的拖尾處理,以提供話音活動(dòng)檢測(cè)單元4-i的最終話音活動(dòng)檢測(cè)決策,所述最終話音活動(dòng)檢測(cè)決策可由話音活動(dòng)檢測(cè)單元4-i提供給隨后的決策組合單元5。在一可實(shí)施方案中,在話音活動(dòng)檢測(cè)單元4-i內(nèi)執(zhí)行所述拖尾處理。在另一可實(shí)施方案中,在決策組合單元5內(nèi)對(duì)每一所接收的話音活動(dòng)檢測(cè)決策VADD執(zhí)行拖尾處理。在又一可實(shí)施方案中,由設(shè)置在相應(yīng)的話音活動(dòng)檢測(cè)單元4-i與決策組合單元5之間的單獨(dú)的拖尾處理單元來(lái)執(zhí)行中間話音活動(dòng)檢測(cè)決策的拖尾處理。在話音活動(dòng)檢測(cè)設(shè)備I的一可實(shí)施方案中,可通過(guò)調(diào)整相應(yīng)的話音活動(dòng)檢測(cè)單元4-i所使用的拖尾處理的拖尾時(shí)間來(lái)調(diào)諧每一話音活動(dòng)檢測(cè)單元4-i的話音活動(dòng)檢測(cè)特 性。其它實(shí)施方案是有可能的。舉例來(lái)說(shuō),如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I的不同話音活動(dòng)檢測(cè)單元4-i可具有不同數(shù)目的子帶或頻率分析,且可使用不同的方法來(lái)計(jì)算子帶信噪比、將不同的修改應(yīng)用于所計(jì)算出的子帶信噪比以及使用不同的方法或方式來(lái)估算背景噪聲的子帶能量。此外,話音活動(dòng)檢測(cè)單元4-i可使用不同的閾值且應(yīng)用不同的拖尾機(jī)制。在如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I的一可實(shí)施方案中,信號(hào)條件分析單元3按照輸入信號(hào)的信號(hào)參數(shù)而分析長(zhǎng)期信噪比1SNR。長(zhǎng)期信噪比ISNR是由話音活動(dòng)檢測(cè)設(shè)備I接收的信號(hào)幀群組或序列的信噪比。此信號(hào)幀群組可包括預(yù)定數(shù)目的信號(hào)幀,例如5到10個(gè)信號(hào)幀,或者所接收的輸入信號(hào)的有源信號(hào)幀的信噪比的移動(dòng)平均值??赏ㄟ^(guò)SNR_=a*SNR_+ (1-a) *SNR0來(lái)計(jì)算所述移動(dòng)平均值,其中SNR_為移動(dòng)平均值,SNR0為最近的有源信號(hào)幀的SNR,a為在長(zhǎng)期估算中可為O. 9的遺忘因子。在又一可實(shí)施方案中,信號(hào)條件分析單兀3進(jìn)一步分析輸入信號(hào)的背景噪聲波動(dòng),以檢測(cè)所接收的輸入信號(hào)的信號(hào)條件和/或信號(hào)類型。其它實(shí)施方案是有可能的。舉例來(lái)說(shuō),信號(hào)條件分析單元3可使用其它信號(hào)參數(shù),例如所接收的輸入信號(hào)的譜傾斜或譜包絡(luò)。在如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I的一可實(shí)施方案中,由話音活動(dòng)檢測(cè)單元4-i提供的話音活動(dòng)檢測(cè)決策VADD是由決策標(biāo)志形成的。在本發(fā)明的第一方面的一可實(shí)施方案中,所產(chǎn)生的決策標(biāo)志是由決策組合單元5根據(jù)組合邏輯而組合的,以提供可由話音活動(dòng)檢測(cè)設(shè)備I在信號(hào)出口 6處輸出的組合的話音活動(dòng)檢測(cè)決策cVADD。在一可實(shí)施方案中,組合邏輯可為組合由話音活動(dòng)檢測(cè)單元4-i輸出的標(biāo)志的布爾邏輯(Boolean logic)。在一可能實(shí)施例中,話音活動(dòng)檢測(cè)設(shè)備I包括兩個(gè)話音活動(dòng)檢測(cè)單元4-1、4-2,其中決策組合單元5的組合邏輯可包括邏輯“與”(logic AND)組合和邏輯“或” (IogicOR)組合,其中根據(jù)由信號(hào)條件分析單元3檢測(cè)到的信號(hào)條件SC來(lái)選擇組合邏輯。因此,話音活動(dòng)檢測(cè)設(shè)備I的決策組合單元5組合話音活動(dòng)檢測(cè)單元4-i的輸出,以根據(jù)信號(hào)條件分析單元3的輸出控制信號(hào)SC得出組合的話音活動(dòng)檢測(cè)決策cVADD。在一可實(shí)施方案中,由決策組合單元5提供的組合邏輯或組合策略包含選擇一個(gè)話音活動(dòng)檢測(cè)單元4-i的輸出,將其作為最終組合話音活動(dòng)檢測(cè)決策cVADD。另一可能的組合策略是選取一個(gè)以上話音活動(dòng)檢測(cè)單元4-i的輸出的邏輯“或”,將其作為組合的話音活動(dòng)決策輸出cVADD,或者選取一個(gè)以上話音活動(dòng)檢測(cè)單元4-i的輸出的邏輯“與”組合,將其作為組合的話音活動(dòng)檢測(cè)輸出cVADD。一般來(lái)說(shuō),基于預(yù)定的邏輯來(lái)組合話音活動(dòng)檢測(cè)單元4-i的決策可依賴于條件分析單元3的輸出信號(hào)。組合策略邏輯可針對(duì)每一信號(hào)條件以每一話音活動(dòng)檢測(cè)單元4-i的優(yōu)勢(shì)和劣勢(shì)為基礎(chǔ),且還可以系統(tǒng)內(nèi)的話音活動(dòng)檢測(cè)設(shè)備I的所要性能等級(jí)或相應(yīng)位置為基礎(chǔ)。舉例來(lái)說(shuō),邏輯組合通過(guò)使用不同話音活動(dòng)決策單元4-i的邏輯“與”來(lái)使話音活動(dòng)檢測(cè)設(shè)備I更積極或更嚴(yán)格,從而有利于語(yǔ)音或話音的非檢測(cè),這是因?yàn)樵捯艋顒?dòng)檢測(cè)設(shè)備I的所有話音活動(dòng)檢測(cè)單元4-i必須檢測(cè)到當(dāng)前信號(hào)幀包括語(yǔ)音。在另一方面,邏輯組合“或”使話音活動(dòng)檢測(cè)不太積極或較寬松,這是因?yàn)檫@足以使一個(gè)話音活動(dòng)檢測(cè)單元4-i檢測(cè)當(dāng)前信號(hào)幀中的語(yǔ)音。其它實(shí)施例和實(shí)施方案也是有可能的。舉例來(lái)說(shuō),兩個(gè)以上話音活動(dòng)檢測(cè)單元4-i可使用多數(shù)決定規(guī)則(majority rule),其中(例如)可針對(duì)特定的信號(hào)條件使用對(duì)所有話音活動(dòng)檢測(cè)單元4-i的投票的調(diào)查。在一可實(shí)施方案中,決策組合單元5包括若干個(gè)組合邏輯,所述組合邏輯可借助于話音活動(dòng)檢測(cè)設(shè)備I的配置接口而編程。 在如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I的另一可實(shí)施方案中,由決策組合單元5輸出的組合的話音活動(dòng)檢測(cè)決策cVADD還經(jīng)歷具有預(yù)定拖尾時(shí)間的拖尾處理。這允許使話音活動(dòng)檢測(cè)決策變得平滑以及(例如通過(guò)在話語(yǔ)突峰的尾部進(jìn)行削波)減少相關(guān)的潛在誤鑒定。在根據(jù)本發(fā)明的第一方面的話音活動(dòng)檢測(cè)設(shè)備I的另一可實(shí)施方案中,包括話音活動(dòng)檢測(cè)單元4-i的所有話音活動(dòng)檢測(cè)決策的話音活動(dòng)檢測(cè)決策向量可通過(guò)所述決策組合單元5的乘法單元與自適應(yīng)或預(yù)定的加權(quán)矩陣W相乘,以計(jì)算組合的話音活動(dòng)檢測(cè)決策cVADDο在本發(fā)明的第一方面的另一可實(shí)施方案中,包括話音活動(dòng)檢測(cè)單元4-i的分段信噪比SSNR的分段信噪比SSNR向量與固定的或自適應(yīng)加權(quán)矩陣W相乘,以計(jì)算組合的分段信噪比值cSSNR。另外,在一可實(shí)施方案中,包括話音活動(dòng)檢測(cè)單元4-i的閾值的閾值向量也與所述自適應(yīng)加權(quán)矩陣W相乘,以計(jì)算組合的決策閾值??蓪⒋私M合的決策閾值與所計(jì)算出的組合信噪比cSSNR進(jìn)行比較,以提供由決策組合單元5輸出的組合的話音活動(dòng)檢測(cè)決策cVADD。圖2展示連接到話音檢測(cè)設(shè)備I的編碼器7的框圖,以說(shuō)明本發(fā)明的第二方面。如圖2中所示的編碼器7可形成語(yǔ)音編碼器,所述語(yǔ)音編碼器用于對(duì)提供到話音活動(dòng)檢測(cè)設(shè)備I的輸入信號(hào)進(jìn)行編碼。如圖2中所示,編碼器7可受由話音活動(dòng)檢測(cè)設(shè)備I產(chǎn)生的組合的話音活動(dòng)檢測(cè)決策cVADD控制。所述組合的話音活動(dòng)檢測(cè)決策cVADD可包括用于一個(gè)或若干個(gè)信號(hào)幀的標(biāo)簽。所述標(biāo)簽可由描述或指示當(dāng)前信號(hào)幀或當(dāng)前信號(hào)幀群組中是否存在話音活動(dòng)的標(biāo)志形成。在一可能實(shí)施例中,話音活動(dòng)檢測(cè)設(shè)備I可在逐幀基礎(chǔ)上操作。在所示的示范性實(shí)施方案中,話音活動(dòng)檢測(cè)設(shè)備I的輸出信號(hào)控制編碼器7。在另一可實(shí)施方案中,話音活動(dòng)檢測(cè)設(shè)備I可控制其它語(yǔ)音處理單元,例如語(yǔ)音識(shí)別裝置;或者其可控制音頻會(huì)話中的語(yǔ)音過(guò)程。此外,在一可實(shí)施方案中,話音活動(dòng)檢測(cè)設(shè)備I可抑制經(jīng)由因特網(wǎng)協(xié)議應(yīng)用的話音中的數(shù)據(jù)包的不必要編碼或傳輸,從而節(jié)約了計(jì)算和網(wǎng)絡(luò)帶寬。例如如圖2中所示的編碼器7等信號(hào)處理裝置可形成例如移動(dòng)電話等語(yǔ)音通信裝置的一部分。語(yǔ)音通信裝置可提供于語(yǔ)音通信系統(tǒng)內(nèi),例如音頻會(huì)議系統(tǒng)、回聲信號(hào)消除系統(tǒng)、語(yǔ)音降噪系統(tǒng)、語(yǔ)音識(shí)別系統(tǒng)、語(yǔ)音編碼系統(tǒng)或蜂窩式電話系統(tǒng)的移動(dòng)電話。在一可實(shí)施方案中,話音活動(dòng)檢測(cè)決策VADD可控制實(shí)體(例如,蜂窩式無(wú)線電系統(tǒng)(例如,GSM或LTE或CDMA系統(tǒng))中的實(shí)體)的不連續(xù)傳輸DTX模式。話音活動(dòng)檢測(cè)設(shè)備I的所提供的組合的話音活動(dòng)檢測(cè)決策cVADD可通過(guò)減少共信道干擾來(lái)增強(qiáng)例如蜂窩式無(wú)線電系統(tǒng)等系統(tǒng)的系統(tǒng)容量。此外,可顯著減少此蜂窩式無(wú)線電系統(tǒng)內(nèi)的便攜式數(shù)字裝置的功耗。話音活動(dòng)檢測(cè)設(shè)備I的另一可能應(yīng)用是(例如,在電話營(yíng)銷應(yīng)用中)控制撥號(hào)器。圖3展示用于說(shuō)明根據(jù)本發(fā)明的另一方面的用于執(zhí)行穩(wěn)固的話音活動(dòng)檢測(cè)的方法的一示范性實(shí)施方案的流程圖。在所示的實(shí)施方案中,所述方法包括三個(gè)步驟。在第一步驟SI中,分析輸入信號(hào)的至少一個(gè)信號(hào)參數(shù)和/或信號(hào)類型,以檢測(cè)所述輸入信號(hào)的信號(hào)條件。在一可實(shí)施方案中,可由例如如圖I中所示的信號(hào)條件分析單元3執(zhí)行對(duì)信號(hào)參數(shù)的分析。
在另一步驟S2中,在至少兩個(gè)不同的話音檢測(cè)特性方面來(lái)單獨(dú)進(jìn)行話音活動(dòng)檢測(cè),以提供單獨(dú)的話音活動(dòng)檢測(cè)決策VADD。在另一步驟S3中,根據(jù)所檢測(cè)到的信號(hào)條件SC來(lái)組合話音活動(dòng)檢測(cè)決策VADD,以提供可用以控制語(yǔ)音處理系統(tǒng)內(nèi)的語(yǔ)音處理實(shí)體的組合的話音活動(dòng)檢測(cè)決策cVADD??赏ㄟ^(guò)在例如微型計(jì)算機(jī)等數(shù)據(jù)處理單元中執(zhí)行對(duì)應(yīng)的應(yīng)用程序來(lái)執(zhí)行如圖3的流程圖中所示的用于執(zhí)行穩(wěn)固的話音活動(dòng)檢測(cè)的方法。在另一可實(shí)施方案中,可借助于硬接線電路來(lái)執(zhí)行如圖3的流程圖中所示的用于執(zhí)行穩(wěn)固的話音活動(dòng)檢測(cè)的方法。在一可實(shí)施方案中,可實(shí)時(shí)地執(zhí)行對(duì)輸入信號(hào)的處理。在本發(fā)明的第一方面的另一具體實(shí)施方案中,話音活動(dòng)檢測(cè)設(shè)備I包括兩個(gè)話音活動(dòng)檢測(cè)單元4-1、4-2,其中可將施加到信號(hào)出口 2處的話音活動(dòng)檢測(cè)單元4-1、4-2的輸入音頻信號(hào)分段成各自具有(例如)20ms持續(xù)時(shí)間的相等的信號(hào)幀。在此具體實(shí)施方案中,第一話音活動(dòng)檢測(cè)單元4-1可通過(guò)使用(例如)濾波器組而將所接收的輸入幀分成九個(gè)子頻帶??捎?jì)算子帶能量,并將其表示為EA(i),其中i表示第i個(gè)子帶,且通過(guò)以下公式來(lái)計(jì)算每一子帶的信噪比SNR
/ .、 EA (OsnrA(i) = —^—
EAn(l)其中SnrA(i)表示輸入幀的第i個(gè)子帶的信噪比SNR,EAn(i)為背景噪聲估算值的第i個(gè)子帶的能量,且A為第一活動(dòng)檢測(cè)單元4-1的指數(shù)。可由可容納在第一話音活動(dòng)檢測(cè)單元4-1中的背景噪聲估算單元來(lái)估算背景噪聲估算值的子帶能量。在一可實(shí)施方案中,將非線性函數(shù)應(yīng)用于每一估算出的子帶信噪比SNR,從而產(chǎn)生九個(gè)經(jīng)修改的子帶信噪比msnrA(i)。在一可實(shí)施方案中,可通過(guò)以下公式來(lái)進(jìn)行所述修改
S77,2 (AmsnrA (J) - MAX MIN ~^~,1 · snrA (/),1其中MAX[]和MIN[]分別表示查找方括號(hào)中的元素中的最大值和最小值。在一可實(shí)施方案中,求出經(jīng)修改的子帶信噪比SNR的總和,以獲得第一話音活動(dòng)檢測(cè)單元4-1的分段信噪比SSNRa??蓪⒎侄涡旁氡萐SNRa與第一話音活動(dòng)檢測(cè)單元4-1的閾值thrA進(jìn)行比較。如果所計(jì)算出的分段信噪比SSNRa超過(guò)閾值thrA,那么可將由話音活動(dòng)檢測(cè)單元4-1提供的中間話音活動(dòng)決策標(biāo)志設(shè)定為1(意味著(例如)檢測(cè)到有源語(yǔ)音),否則便將所述中間話音活動(dòng)決策標(biāo)志設(shè)定為O (意味著(例如)非有源,即,未檢測(cè)到語(yǔ)音,或者為背景噪聲)。閾值thrA可為(例如)由第一話音活動(dòng)檢測(cè)單元4-1估算的估算出的長(zhǎng)期信噪比ISNR的線性函數(shù)。在一可實(shí)施方案中,所產(chǎn)生的中間話音活動(dòng)決策可經(jīng)歷拖尾處理,以獲得第一話音活動(dòng)檢測(cè)單元4-1的最終話音活動(dòng)決策。在另一可實(shí)施方案中,第二話音活動(dòng)檢測(cè)單元4-2可通過(guò)快速傅里葉變換FFT而將所接收的輸入信號(hào)幀變換到頻域中,并可通過(guò)對(duì)FFT功率密度頻段進(jìn)行分區(qū)而將輸入幀分成(例如)十九個(gè)子頻帶??捎?jì)算子帶能量,并將其表示為匕(1),其中可通過(guò)以下公式來(lái)計(jì)算每一子帶的信噪比snr
(E (7)、 wB(/') = log -^―
VEBn(1))其中B為第二話音活動(dòng)檢測(cè)單元4-2的指數(shù),且EB(i)為可由第二話音活動(dòng)檢測(cè)單元4-2獨(dú)立于第一話音活動(dòng)檢測(cè)單元4-1而估算的背景噪聲估算值的第i個(gè)子帶的能量。在此實(shí)例中,每一子帶snrB(i)的信噪比snr的下限將為0.1,且上限將為2。每一信噪比信號(hào)snrB(i)可應(yīng)用于與第一話音活動(dòng)檢測(cè)單元4-1所使用的非線性函數(shù)不同的非線性函數(shù),從而產(chǎn)生十九個(gè)經(jīng)修改的子帶信噪比mSnrB(i)。在一可實(shí)施方案中,可通過(guò)以下公式來(lái)進(jìn)行此修改
\snr9B{i) snrB{i)<\ msnrAi)= <
\snr^{i) 其它情況在一可實(shí)施方案中,求出經(jīng)修改的子帶信噪比的總和,以獲得第二話音活動(dòng)檢測(cè)單元4-2的分段信噪比SSNRb。可將第二話音活動(dòng)檢測(cè)單元4-2的所產(chǎn)生的分段信噪比SSNRb與第二話音活動(dòng)檢測(cè)單元4-2的閾值thrB進(jìn)行比較。在一可實(shí)施方案中,如果SSNRb超過(guò)對(duì)應(yīng)的閾值thrB,那么將第二話音活動(dòng)檢測(cè)單元4-2的中間話音活動(dòng)檢測(cè)決策設(shè)定為1,否則便將其設(shè)定為O。閾值thrB可為(例如)由第二話音活動(dòng)檢測(cè)單元4-2估算的所估算長(zhǎng)期信噪比ISNR的線性函數(shù)。中間話音活動(dòng)檢測(cè)決策可進(jìn)一步經(jīng)歷不同于第一話音活動(dòng)檢測(cè)單元4-1所使用的拖尾處理的對(duì)應(yīng)的拖尾處理,以獲得第二話音活動(dòng)檢測(cè)單元4-2的最終話音活動(dòng)檢測(cè)決策。在一可實(shí)施方案中,所述兩個(gè)話音活動(dòng)檢測(cè)單元4-1、4-2按照最終話音活動(dòng)檢測(cè)決策而提供對(duì)應(yīng)的標(biāo)志VAD FLGa>VAD FLGbo可由決策組合單元5根據(jù)預(yù)定的組合策略或組合邏輯來(lái)組合由話音活動(dòng)檢測(cè)單元4-1、4-2輸出的所述兩個(gè)話音活動(dòng)檢測(cè)決策標(biāo)志。根據(jù)由信號(hào)條件分析單元3提供的輸出控制信號(hào)SC來(lái)選擇組合邏輯。在一可實(shí)施方案中,可由當(dāng)前輸入信號(hào)的所估算的長(zhǎng)期信噪比ISNR來(lái)形成信號(hào)條件SC??捎瑟?dú)立的估算程序來(lái)獨(dú)立地估算此長(zhǎng)期信噪比1SNR。為了提高實(shí)施方案的效率,可由話音活動(dòng)檢測(cè)單元4-i中的一者來(lái)估算長(zhǎng)期信噪比1SNR。在一可能具體實(shí)施方案中,使用第一話音活動(dòng)檢測(cè)單元4-1的長(zhǎng)期信噪比估算值,并將其分類成三個(gè)不同的信噪比區(qū)域,即,高SNR區(qū)域、中等SNR區(qū)域以及低SNR區(qū)域。如果長(zhǎng)期信噪比ISNR落在高信噪比區(qū)域中,那么選取由第一話音活動(dòng)檢測(cè)單元4-1提供的標(biāo)志(即,VAG FLGa),將其作為最終組合話音活動(dòng)檢測(cè)輸出cVADD。如果長(zhǎng)期信噪比ISNR落在低SNR區(qū)域中,那么選擇第二話音活動(dòng)檢測(cè)單元4-2的標(biāo)志VAD FLGb,將其作為最終組合話音活動(dòng)檢測(cè)決策cVADD。此外,如果長(zhǎng)期信噪比ISNR落在中等SNR區(qū)域中,那么將話音活動(dòng)檢測(cè)單元4-1與話音活動(dòng)檢測(cè)單元4-2的兩個(gè)信號(hào)標(biāo)志(S卩,VAD FLGa與VAD FLGb)之間的邏輯“與”組合用作話音活動(dòng)檢測(cè)設(shè)備I的最終組合話音活動(dòng)檢測(cè)決策cVADD。在話音活動(dòng)檢測(cè)設(shè)備I的另一可實(shí)施方案中,針對(duì)兩個(gè)中間話音活動(dòng)檢測(cè)輸出而執(zhí)行話音活動(dòng)檢測(cè)單元4-1、4-2的兩個(gè)話音活動(dòng)檢測(cè)輸出的組合(即,在不通過(guò)對(duì)應(yīng)的拖尾機(jī)制的情況下)。在一可實(shí)施方案中,中間組合話音活動(dòng)檢測(cè)標(biāo)志隨后經(jīng)歷拖尾處理,以獲得話音活動(dòng)檢測(cè)設(shè)備I的最終信號(hào)出口。所使用的拖尾處理可與由話音活動(dòng)檢測(cè)單元
4-1、4-2中的一者所使用的拖尾機(jī)制中的任一者相關(guān),或者其可為獨(dú)立的拖尾機(jī)制。在話音活動(dòng)檢測(cè)設(shè)備I的又一可實(shí)施方案中,通過(guò)矩陣數(shù)據(jù)處理來(lái)實(shí)施由決策組合單元5執(zhí)行的組合處理。在此實(shí)施方案中,所述兩個(gè)話音活動(dòng)檢測(cè)單元4-1、4-2的話音活動(dòng)檢測(cè)輸出可形成1x2矩陣F = [VAD FLGA,VAD FLGb],其中此矩陣F乘以2x1加權(quán)矩陣W,以獲得組合的話音活動(dòng)檢測(cè)指示符I。加權(quán)矩陣W內(nèi)的矩陣元素可由實(shí)際長(zhǎng)期信噪比類別決定,其中根據(jù)長(zhǎng)期信噪比ISNR是落在高SNR區(qū)域、中等SNR區(qū)域還是低SNR區(qū)域中,WT =[170]或
或
。組合的話音活動(dòng)檢測(cè)標(biāo)志隨后可為約[1+0.5]。在此實(shí)施方案中,可使用話音活動(dòng)檢測(cè)單元4-i的中間結(jié)果(即,沒(méi)有拖尾)或最終結(jié)果(即,有拖尾)兩者。在話音活動(dòng)檢測(cè)設(shè)備I的又一可實(shí)施方案中,第一話音活動(dòng)檢測(cè)單元4-1的分段信噪比SSNRa和第二話音活動(dòng)檢測(cè)單元4-2的分段信噪比SSNRb可形成1x2矩陣P =[SSNRa, SSNRb]。此外,第一話音活動(dòng)檢測(cè)單元4_1的決策閾值thrA和第二話音活動(dòng)檢測(cè)單元4-2的決策閾值thrB可形成另一 1x2矩陣T = [thrA, thrB]。在此實(shí)施例中的所述兩個(gè)矩陣分別乘以2x2加權(quán)矩陣W,以分別獲得組合的參數(shù)cSSNR和組合的決策閾值thrM。在此實(shí)施方案中,通過(guò)將組合的分段信噪比SSNRm與組合的決策閾值thrM進(jìn)行比較來(lái)獲得中間話音活動(dòng)決策。隨后通過(guò)使中間話音活動(dòng)檢測(cè)決策經(jīng)歷拖尾處理來(lái)獲得組合的話音活動(dòng)檢測(cè)決策cVADD。加權(quán)矩陣W內(nèi)的矩陣元素可由實(shí)際長(zhǎng)期信噪比類別決定,其中舉例來(lái)說(shuō),當(dāng)長(zhǎng)期信噪比ISNR落在高信噪比區(qū)域、中等信噪比區(qū)域或低信噪比區(qū)域中時(shí),WT= [1,0]或[O. 5,0. 5*(thrA/thrB)]或
。在一可實(shí)施方案中,可將由信號(hào)條件分析單元3提供的信號(hào)條件SC量化為有限的步驟。在如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I的一可實(shí)施方案中,話音活動(dòng)檢測(cè)設(shè)備I包括多個(gè)話音活動(dòng)檢測(cè)單元4-i,所述多個(gè)話音活動(dòng)檢測(cè)單元4-i可由軟件或硬件實(shí)施,其每一者能夠針對(duì)每一輸入信號(hào)幀而輸出話音活動(dòng)決策??捎尚盘?hào)條件分析單元3估算當(dāng)前輸入信號(hào)的信號(hào)條件SC的集合。可根據(jù)所估算出的信號(hào)條件,以多種可選方式中的一種方式來(lái)組合由話音活動(dòng)檢測(cè)單元4-i產(chǎn)生的話音活動(dòng)檢測(cè)決策VADD,以確定最終話音活動(dòng)檢測(cè)決策。在另一可實(shí)施方案中,話音活動(dòng)檢測(cè)單元4-i并不輸出話音活動(dòng)檢測(cè)標(biāo)志,而是基于可作出哪種話音活動(dòng)檢測(cè)決策VADD而至少產(chǎn)生一對(duì)決策參數(shù)和閾值。在另一可實(shí)施方案中,信號(hào)條件的集合可包含輸入信號(hào)的長(zhǎng)期信噪比或輸入信號(hào)的背景噪聲波動(dòng)中的至少一者。在一可實(shí)施方案中,可由集成電路形成如圖I中所示的話音活動(dòng)檢測(cè)設(shè)備I。在話音活動(dòng)檢測(cè)設(shè)備I的另一可實(shí)施方案中,所述設(shè)備可包括通過(guò)金屬線(wire)而彼此連接的若干個(gè)離散元件或組件。在話音活動(dòng)檢測(cè)設(shè)備I的一可實(shí)施方案中,所述話音活動(dòng)檢測(cè)設(shè)備I集成于例如圖2中所示的編碼器7等音頻信號(hào)處理設(shè)備中。在一可實(shí)施方案中,提供所述話音活動(dòng)檢測(cè)設(shè)備I以用于處理施加到輸入2的電信號(hào)。在話音活動(dòng)檢測(cè)設(shè)備I的另一可實(shí)施方案中,借助于信號(hào)變換單元來(lái)處理首先變換成電輸入信號(hào)的光信號(hào)。在一可實(shí)施方案中,所述話音活動(dòng)檢測(cè)設(shè)備I包括自適應(yīng)決策組合單元5,所述自適應(yīng)決策組合單元5(舉例來(lái)說(shuō))根據(jù)信號(hào)長(zhǎng)期信噪比而自適應(yīng),即,所述決策組合單元5所使用的函數(shù)和加權(quán)因子根據(jù)測(cè)量出的長(zhǎng)期信噪比ISNR而調(diào)整。借助于如圖I中所示的根據(jù)第一方面的話音活動(dòng)檢測(cè)設(shè)備I,可顯著改進(jìn)整體話音活動(dòng)檢測(cè)性能,即,信號(hào)處理效率和精確度以及 檢測(cè)質(zhì)量。
權(quán)利要求
1.一種話音活動(dòng)檢測(cè)設(shè)備(I),其特征在于包括 (a)信號(hào)條件分析單元(3),用以分析輸入信號(hào)的至少一個(gè)信號(hào)參數(shù),以檢測(cè)所述輸入信號(hào)的信號(hào)條件(SC); (b)至少兩個(gè)包括不同的話音活動(dòng)檢測(cè)特性的話音活動(dòng)檢測(cè)單元(4-i); 其中每一話音活動(dòng)檢測(cè)單元(4_i)單獨(dú)執(zhí)行對(duì)所述輸入信號(hào)的話音活動(dòng)檢測(cè),以提供話音活動(dòng)檢測(cè)決策(VADDi); (c)決策組合單元(5),用于根據(jù)所述所檢測(cè)到的信號(hào)條件(SC)而組合由所述話音活動(dòng)檢測(cè)單元(4-i)提供的所述話音活動(dòng)檢測(cè)決策(VADDi),以提供組合的話音活動(dòng)檢測(cè)決策(cVADD)。
2.根據(jù)權(quán)利要求I所述的話音活動(dòng)檢測(cè)設(shè)備,其特征在于 所述話音活動(dòng)檢測(cè)設(shè)備(I)還包括信號(hào)入口(2),所述信號(hào)入口(2)用于接收包括信號(hào)中貞的輸入信號(hào), 其中所述話音活動(dòng)檢測(cè)單元(4-i)包括信噪比(SNR)話音活動(dòng)檢測(cè)單元, 其中每一信噪比(SNR)話音活動(dòng)檢測(cè)單元(4-i)將輸入信號(hào)幀分成若干個(gè)子頻帶,針對(duì)每一子頻帶計(jì)算信噪比(SNR),并求出所計(jì)算出的所有子頻帶信噪比(SNR)的總和,以提供分段信噪比(SSNR),所述分段信噪比(SSNR)與閾值進(jìn)行比較以提供相應(yīng)的話音活動(dòng)檢測(cè)單元(4-i)的中間話音活動(dòng)檢測(cè)決策,其中所述中間話音活動(dòng)檢測(cè)決策或所述中間話音活動(dòng)檢測(cè)決策經(jīng)處理的版本形成所述話音活動(dòng)檢測(cè)決策(VADDi)。
3.根據(jù)權(quán)利要求2所述的話音活動(dòng)檢測(cè)設(shè)備,其特征在于 通過(guò)將非線性函數(shù)應(yīng)用于所述所計(jì)算出的信噪比(SNR)來(lái)修改針對(duì)對(duì)應(yīng)的子頻帶而計(jì)算的每一信噪比(SNR),以提供經(jīng)修改的信噪比(mSNR),其中借助于加法單元來(lái)求出所述經(jīng)修改的信噪比(mSNR)的總和,以獲得所述分段信噪比(SSNR)。
4.根據(jù)權(quán)利要求2或3所述的話音活動(dòng)檢測(cè)(VAD)設(shè)備,其特征在于 其中每一話音活動(dòng)檢測(cè)單元(4-i)的所述中間話音活動(dòng)檢測(cè)決策經(jīng)過(guò)具有對(duì)應(yīng)的拖尾時(shí)間的拖尾處理,以提供所述話音活動(dòng)檢測(cè)單元(4-i)的所述話音活動(dòng)檢測(cè)決策(VADDi)。
5.根據(jù)權(quán)利要求2到4中任一權(quán)利要求所述的話音活動(dòng)檢測(cè)設(shè)備,其特征在于 每一話音活動(dòng)檢測(cè)單元(4-i)的所述話音檢測(cè)特性可通過(guò)以下步驟調(diào)諧; 調(diào)整所述話音活動(dòng)檢測(cè)單元(4-i)所使用的子頻帶的數(shù)目;和/或通過(guò) 改變所述話音活動(dòng)檢測(cè)單元(4-i)所使用的所述非線性函數(shù);和/或通過(guò) 調(diào)整所述話音活動(dòng)檢測(cè)單元(4-i)所使用的所述拖尾處理的拖尾時(shí)間。
6.根據(jù)權(quán)利要求I到5中任一權(quán)利要求所述的話音活動(dòng)檢測(cè)設(shè)備,其特征在于 其中所述信號(hào)條件分析單元(3)按照所述輸入信號(hào)的所述信號(hào)參數(shù)而分析所述輸入信號(hào)的長(zhǎng)期信噪比(ISNR)、背景噪聲波動(dòng)和/或能量度量,以檢測(cè)所述輸入信號(hào)的所述信號(hào)條件(SC)。
7.根據(jù)權(quán)利要求I到6中任一權(quán)利要求所述的話音活動(dòng)檢測(cè)設(shè)備,其特征在于 其中由所述話音活動(dòng)檢測(cè)單元(4-i)提供的所述話音活動(dòng)檢測(cè)決策(VADDi)由根據(jù)所述決策組合單元(5)的預(yù)定組合邏輯而組合的決策標(biāo)志形成,以提供由所述話音活動(dòng)檢測(cè)設(shè)備(I)輸出的所述組合的話音活動(dòng)檢測(cè)決策(cVADD),其中所述決策組合單元(5)基于由所述信號(hào)條件分析單元(3)分析的所述至少一個(gè)信號(hào)參數(shù)或所述信號(hào)條件而產(chǎn)生所述組合邏輯。
8.根據(jù)權(quán)利要求7所述的話音活動(dòng)檢測(cè)設(shè)備,其特征在于 其中由所述信號(hào)條件分析單元(3)分析的所述信號(hào)參數(shù)為所述長(zhǎng)期信噪比(ISNR),所述長(zhǎng)期信噪比(ISNR)被分類為三個(gè)不同的信噪比區(qū)域,包括高SNR區(qū)域、中等SNR區(qū)域以及低SNR區(qū)域, 其中所述決策組合單元(5)基于由所述話音活動(dòng)檢測(cè)單元(4-c)所提供的所述決策標(biāo)志來(lái)提供所述組合的話音活動(dòng)檢測(cè)決策(cVADD);所述決策標(biāo)示是由所述話音活動(dòng)檢測(cè)單元(4-c)根據(jù)所述長(zhǎng)期信噪比(ISNR)所落在的所述SNR區(qū)域而提供的。
9.根據(jù)權(quán)利要求I到8中任一權(quán)利要求所述的話音活動(dòng)檢測(cè)設(shè)備,其特征在于 其中所述決策組合單元(5)的所述組合的話音活動(dòng)檢測(cè)決策(cVADD)經(jīng)過(guò)具有預(yù)定拖尾時(shí)間的拖尾處理。
10.根據(jù)權(quán)利要求I到9中任一權(quán)利要求所述的話音活動(dòng)檢測(cè)設(shè)備,其特征在于 所述決策組合單元(5)將包括所述話音活動(dòng)檢測(cè)單元(4-i)的所述話音活動(dòng)檢測(cè)決策(VADD)的話音活動(dòng)檢測(cè)決策向量與自適應(yīng)或預(yù)定的加權(quán)矩陣相乘,以計(jì)算所述組合的話音活動(dòng)檢測(cè)決策(cVADD)。
11.根據(jù)權(quán)利要求I或2所述的話音活動(dòng)檢測(cè)設(shè)備,其特征在于 其中包括所述話音活動(dòng)檢測(cè)單元(4-i)的所述分段信噪比(SSNR)的分段信噪比(SSNR)向量與自適應(yīng)加權(quán)矩陣相乘,以計(jì)算組合的分段信噪比(cSSNR)值,且 其中包括所述話音活動(dòng)檢測(cè)單元(4-i)的所述閾值的閾值向量與所述自適應(yīng)加權(quán)矩陣相乘,以計(jì)算組合的決策閾值(cthr),所述組合的決策閾值(cthr)與所述所計(jì)算出的組合的分段信噪比(cSSNR)值進(jìn)行比較,以提供所述組合的話音活動(dòng)檢測(cè)決策(cVADD)。
12.根據(jù)權(quán)利要求I到11中任一權(quán)利要求所述的話音活動(dòng)檢測(cè)設(shè)備,其特征在于 其中由所述話音活動(dòng)檢測(cè)設(shè)備(I)提供的所述組合的話音活動(dòng)檢測(cè)決策(cVADD)應(yīng)用于編碼器。
13.一種用于對(duì)音頻信號(hào)進(jìn)行編碼的編碼器,其特征在于,所述編碼器包括根據(jù)權(quán)利要求I到12中任一權(quán)利要求所述的話音活動(dòng)檢測(cè)設(shè)備(I)。
14.一種語(yǔ)音通信裝置,其特征在于,包括根據(jù)權(quán)利要求13所述的語(yǔ)音編碼器。
15.一種用于執(zhí)行對(duì)信號(hào)的話音活動(dòng)檢測(cè)的方法,其特征在于,包括以下步驟 (a)分析(SI)輸入信號(hào)的至少一個(gè)信號(hào)參數(shù),以檢測(cè)所述輸入信號(hào)的信號(hào)條件(SC); (b)用至少兩個(gè)不同的話音檢測(cè)特性來(lái)單獨(dú)執(zhí)行(S2)話音活動(dòng)檢測(cè)(VAD),以提供單獨(dú)的話音活動(dòng)檢測(cè)決策(VADDi);以及 (c)根據(jù)所述所檢測(cè)到的信號(hào)條件(SC)而組合(S3)所述話音活動(dòng)檢測(cè)決策(VADDi),以提供組合的話音活動(dòng)檢測(cè)決策(cVADD)。
全文摘要
本發(fā)明提供一種話音活動(dòng)檢測(cè)設(shè)備(1),其包括信號(hào)條件分析單元(3),其分析輸入信號(hào)的至少一個(gè)信號(hào)參數(shù),以檢測(cè)所述輸入信號(hào)的信號(hào)條件SC;至少兩個(gè)話音活動(dòng)檢測(cè)單元(4-i),其包括不同的話音檢測(cè)特性,其中每一話音活動(dòng)檢測(cè)單元(4-i)單獨(dú)執(zhí)行對(duì)所述輸入信號(hào)的話音活動(dòng)檢測(cè),以提供話音活動(dòng)檢測(cè)決策VADD;以及決策組合單元(5),其根據(jù)所述所檢測(cè)到的信號(hào)條件SC而組合由所述話音活動(dòng)檢測(cè)單元(4-i)提供的所述話音活動(dòng)檢測(cè)決策VADD,以提供組合的話音活動(dòng)檢測(cè)決策cVADD。
文檔編號(hào)G10L21/02GK102741918SQ201080029467
公開(kāi)日2012年10月17日 申請(qǐng)日期2010年12月24日 優(yōu)先權(quán)日2010年12月24日
發(fā)明者王喆, 苗磊, 許劍峰, 阿里斯·塔勒布 申請(qǐng)人:華為技術(shù)有限公司