專利名稱:用于噪聲環(huán)境的話音活動(dòng)檢測(cè)器和驗(yàn)證器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及噪聲環(huán)境內(nèi)的語(yǔ)音的檢測(cè)(通常稱為話音活動(dòng)檢測(cè)(VAD))。本發(fā)明適用于(但并不限于)語(yǔ)音檢測(cè)系統(tǒng)中的話音信號(hào)的能量加速率測(cè)量。
背景技術(shù):
許多話音通信系統(tǒng),例如針對(duì)個(gè)人移動(dòng)無線用戶的全球移動(dòng)通信系統(tǒng)(GSM)蜂窩電話標(biāo)準(zhǔn)和陸地中繼無線(TETRA)系統(tǒng)使用語(yǔ)音處理單元來編碼和解碼語(yǔ)音模式。在這種話音通信系統(tǒng)中,語(yǔ)音編碼器把模擬語(yǔ)音模式轉(zhuǎn)換為傳輸用的合適的數(shù)字格式。語(yǔ)音解碼器把接收的數(shù)字語(yǔ)音信號(hào)轉(zhuǎn)換為音頻模擬語(yǔ)音模式。
用于檢測(cè)話音活動(dòng)的方法和設(shè)備在本技術(shù)領(lǐng)域中已公知。話音活動(dòng)檢測(cè)器(VAD)在假設(shè)語(yǔ)音只存在于音頻信號(hào)的一部分中的假設(shè)下工作。這個(gè)假設(shè)通常是正確的,因?yàn)樵S多音頻信號(hào)間隔只具有靜音或背景噪聲。
話音活動(dòng)檢測(cè)器可以用于許多目的。這些包括當(dāng)在沒有語(yǔ)音時(shí)抑制傳輸系統(tǒng)中的整個(gè)傳輸活動(dòng),從而潛在地節(jié)約了功率和信道帶寬。當(dāng)VAD檢測(cè)到語(yǔ)音活動(dòng)繼續(xù)進(jìn)行時(shí),能夠重新開始傳輸活動(dòng)。
話音活動(dòng)檢測(cè)器還可以與語(yǔ)音存儲(chǔ)設(shè)備結(jié)合使用,把包括語(yǔ)音的音頻部分與“無語(yǔ)音”部分區(qū)分開。包括語(yǔ)音的部分后來被存儲(chǔ)在存儲(chǔ)設(shè)備中而“無語(yǔ)音”部分被丟棄。
用于檢測(cè)話音的現(xiàn)有方法至少部分地基于用于檢測(cè)和估算語(yǔ)音信號(hào)的功率的方法。估算的功率與一常數(shù)或一自適應(yīng)門限比較,以作出該信號(hào)是否是語(yǔ)音的判決。這些方法的主要優(yōu)點(diǎn)在于其低復(fù)雜度,這使得它們適用于低處理資源的實(shí)施。這種方法的主要缺點(diǎn)是背景噪聲可能無意中導(dǎo)致在實(shí)際上沒有“語(yǔ)音”的時(shí)候檢測(cè)到“語(yǔ)音”。另外,因?yàn)楹磺澹瑢?shí)際存在的“語(yǔ)音”可能未被檢測(cè)到,并且由于背景噪聲而導(dǎo)致難以檢測(cè)到。
用于檢測(cè)語(yǔ)音活動(dòng)的一些方法針對(duì)于噪聲移動(dòng)環(huán)境且基于語(yǔ)音信號(hào)的自適應(yīng)濾波。這在最終判決之前降低了來自該信號(hào)的噪聲內(nèi)容。由于該方法用于不同的說話者和不同的環(huán)境,所以頻譜和噪聲電平可能發(fā)生改變。因此,輸入濾波器和門限通常是自適應(yīng)的,以跟蹤這些變化。
這些方法的示例在分別用于半速率、全速率和增強(qiáng)全速率語(yǔ)音業(yè)務(wù)信道的GSM規(guī)范06.42話音活動(dòng)檢測(cè)器(VAD)中提供。另一這種方法是ITU G.729附錄B中所建議的“Multi-Boundary Voice ActivityDetection Algorithm(多界限話音活動(dòng)檢測(cè)算法)”。這些方法在噪聲環(huán)境中很準(zhǔn)確,但是實(shí)施起來很復(fù)雜。
所有這些方法都需要輸入語(yǔ)音信號(hào)。采用語(yǔ)音解壓縮方案的一些應(yīng)用在語(yǔ)音解壓縮處理期間需要執(zhí)行語(yǔ)音檢測(cè)。
Benyassine等人的歐洲專利申請(qǐng)No.EP-A-0785419涉及一種用于話音活動(dòng)檢測(cè)的方法,該方法包括以下步驟(i)從每幀的呼入語(yǔ)音信號(hào)中提取出預(yù)定集的參數(shù),以及(ii)根據(jù)從預(yù)定集的參數(shù)中提取出的偏差測(cè)量集來對(duì)每幀的呼入語(yǔ)音信號(hào)作出幀話音判決。
蜂窩系統(tǒng)中的VAD進(jìn)行偏置,以確保當(dāng)一方說話時(shí),包括語(yǔ)音編解碼器和RF電路等的無線設(shè)備被激活,以把該語(yǔ)音傳送至背景噪聲及其它損傷環(huán)境中的另一方。但是,這導(dǎo)致在一方?jīng)]有說話時(shí)出現(xiàn)數(shù)據(jù)傳輸。這種方法的代價(jià)是稍微降低了電池壽命和稍微增加了對(duì)該系統(tǒng)的其它單元中的同信道用戶的干擾。這些基本上是第二(或更高)階效應(yīng)。
在這些系統(tǒng)中,沒有對(duì)有限資源可用于雙工呼叫的構(gòu)思。通常在不同載波上的上行鏈路和下行鏈路完全可以一致同時(shí)使用整個(gè)帶寬。
在本發(fā)明的領(lǐng)域中已公知,一些話音活動(dòng)或話音開始檢測(cè)器(VAD/VOD)試圖使用諸如諧波結(jié)構(gòu)(例如通過自相關(guān))的語(yǔ)音特性來辨別濁音語(yǔ)音(voiced speech)。但是,在噪音中,由于語(yǔ)音結(jié)構(gòu)的破壞或由于噪聲中的結(jié)構(gòu),這些結(jié)構(gòu)指示符可能失效。這例如可以是汽車中的引擎、輪胎或空調(diào)噪聲。最后,這些方法在檢測(cè)清音語(yǔ)音(unvoiced speech)方面上較弱。
其替換物只是使用幀能量級(jí)來檢測(cè)語(yǔ)音。這對(duì)于高信噪比(SNR)條件的語(yǔ)音是令人滿意的,其中,可以設(shè)置高于噪聲電平的任意門限來表示語(yǔ)音。但是,這種方法在很多實(shí)際噪聲條件中失效。
對(duì)于非歸一化的數(shù)據(jù)庫(kù)或在實(shí)際應(yīng)用中,一個(gè)示例集中的噪聲電平很可能比另一示例集中的語(yǔ)音電平高,這使得不能設(shè)置門限值??朔@個(gè)問題的現(xiàn)有方法是取話語(yǔ)的大約第一個(gè)100毫秒的平均值,假定這代表噪聲,從而創(chuàng)建用于該話語(yǔ)的特定門限。但是,此外,這對(duì)于非平穩(wěn)噪聲是不夠的,其中該噪聲可能迅速偏離初始估計(jì)值,其中該噪聲具有高方差或其中第一少數(shù)幀實(shí)際上包含不是假定噪聲的語(yǔ)音。
因此,需要有一種用于噪聲環(huán)境的經(jīng)改善的話音活動(dòng)檢測(cè)器和驗(yàn)證器,其可以緩和上述缺點(diǎn)。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提供了一種如權(quán)利要求1所述的通信單元。
根據(jù)本發(fā)明的第二方面,提供了一種如權(quán)利要求11所述的檢測(cè)輸入到通信單元中的語(yǔ)音信號(hào)的方法。
根據(jù)本發(fā)明的第三方面,提供了一種如權(quán)利要求14所述的確定輸入到通信單元中的信號(hào)是語(yǔ)音還是噪聲的方法。
本發(fā)明的其它方面如其從屬權(quán)利要求中所述。
總之,本發(fā)明旨在通過使用能量加速率測(cè)量(優(yōu)選為能量幅度測(cè)量)來解決任意幅度的非平穩(wěn)噪聲的情況,以表示存在或不存在語(yǔ)音。
現(xiàn)在參考附圖對(duì)本發(fā)明的示例性實(shí)施例進(jìn)行描述,在附圖中圖1示出了適用于執(zhí)行本發(fā)明的優(yōu)選實(shí)施例的話音活動(dòng)檢測(cè)和驗(yàn)證的通信單元的方框圖;圖2示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的用于噪聲環(huán)境的基于能量加速率的話音活動(dòng)檢測(cè)器的流程圖;圖3示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的用于噪聲環(huán)境的基于能量加速率的話音活動(dòng)驗(yàn)證的流程圖;以及圖4示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的緩沖器操作。
具體實(shí)施例方式
濁音語(yǔ)音具有相對(duì)較高的能量加速率值,因?yàn)闈嵋粽Z(yǔ)音的開始依賴于或振動(dòng)或靜止的聲帶的活動(dòng)。類似地,清音的開始(例如爆破音)也具有高能量加速率。
本發(fā)明人已意識(shí)到,在代表性的有明顯語(yǔ)音特征的域中,例如窄帶功率譜或Mel頻譜,所得的能量加速率大大高于非平穩(wěn)噪聲。唯一主要的例外是沖擊噪聲(例如鼓掌)。
因此,根據(jù)本發(fā)明的優(yōu)選實(shí)施例,本發(fā)明人已發(fā)現(xiàn)通過集中可能含有話音信號(hào)的基本基音的頻率區(qū)中的能量,而能夠另外與這些噪聲區(qū)分開。具體地說,本發(fā)明的發(fā)明人建議使用語(yǔ)音的非結(jié)構(gòu)特征,即能量加速率(或反映語(yǔ)音能量或其分量的一些度量的加速率)。
具體地說,對(duì)于在此所描述的發(fā)明構(gòu)思的優(yōu)選應(yīng)用是目前正由歐洲電信標(biāo)準(zhǔn)協(xié)會(huì)(ETSI)所定義的分布式語(yǔ)音識(shí)別(DSR)標(biāo)準(zhǔn)“SpeechProcessing;Transmission and Quality aspects(STQ);Distributed speechrecognition;Front-end feature extraction algorithm;Compressionalgorithm(語(yǔ)音處理、傳輸和質(zhì)量方面(STQ);分布式語(yǔ)音識(shí)別;前端特征提取算法;壓縮算法)”,ETSI ES 201 108 vl.1.2(2000-04),2000年4月。
現(xiàn)在參考圖1,示出了適用于支持本發(fā)明的優(yōu)選實(shí)施例的發(fā)明構(gòu)思的音頻用戶單元100的方框圖。
根據(jù)無線音頻通信單元來描述本發(fā)明的優(yōu)選實(shí)施例,例如能夠在用于未來蜂窩無線通信系統(tǒng)的第三代合作項(xiàng)目(3GPP)標(biāo)準(zhǔn)下運(yùn)行且提供DSR能力的無線音頻通信單元。但是,在此所描述的關(guān)于話音活動(dòng)檢測(cè)和驗(yàn)證的發(fā)明構(gòu)思同樣適用于響應(yīng)話音信號(hào)且可以從經(jīng)改善的話音活動(dòng)檢測(cè)電路中獲益的任何電子器件,這也在本發(fā)明的范圍之內(nèi)。
如在本技術(shù)領(lǐng)域中已知,音頻用戶單元100包含優(yōu)選地連接至雙工濾波器、天線開關(guān)或循環(huán)器104的天線102,循環(huán)器104使音頻用戶單元100內(nèi)的接收鏈和發(fā)送鏈之間隔離。
接收器鏈包括接收器前端電路106(有效提供接收、濾波和中頻或基帶頻率轉(zhuǎn)換)。前端電路106串聯(lián)連接至信號(hào)處理功能塊(一般由數(shù)字信號(hào)處理器(DSP)實(shí)現(xiàn))108。信號(hào)處理功能塊108執(zhí)行信號(hào)解調(diào)、糾錯(cuò)和格式化。從信號(hào)處理功能塊108恢復(fù)的數(shù)據(jù)串聯(lián)連接至音頻處理功能塊109,其以合適的方式格式化接收信號(hào),以發(fā)送至音頻發(fā)音器/顯示器111。
在本發(fā)明的不同實(shí)施例中,信號(hào)處理功能塊108和音頻處理功能塊109可以設(shè)置在相同的物理設(shè)備內(nèi)??刂破?14被安置來控制用戶單元100的組件的信息流和運(yùn)行狀態(tài)。
至于發(fā)送鏈,這基本上包括音頻輸入設(shè)備120,其串聯(lián)連接音頻處理功能塊109、信號(hào)處理功能塊108、發(fā)射器/調(diào)制電路122和功率放大器124。處理器108、發(fā)射器/調(diào)制電路122和功率放大器124可操作地響應(yīng)控制器。功率放大器輸出被連接至雙工濾波器、天線開關(guān)或循環(huán)器104以及天線102,以發(fā)射最終的射頻信號(hào)。
具體地說,音頻處理功能塊109包括話音活動(dòng)(或話音開始)檢測(cè)(VAD)功能塊130,其操作地連接至話音活動(dòng)判決功能塊135。根據(jù)本發(fā)明的優(yōu)選實(shí)施例,VAD功能塊130和話音活動(dòng)判決功能塊135適用于提供經(jīng)改善的話音檢測(cè)和判決機(jī)制,其操作將根據(jù)圖2和圖3得到進(jìn)一步的描述。應(yīng)當(dāng)注意,話音活動(dòng)檢測(cè)器功能塊130包括由三個(gè)測(cè)量組成的逐幀檢測(cè)階段。這三個(gè)頻率范圍測(cè)量包括(i)整個(gè)頻譜;(ii)頻譜子頻段;以及
(iii)頻譜方差。
接著,話音活動(dòng)判決功能塊135根據(jù)測(cè)量的緩沖器來執(zhí)行判決,分析其語(yǔ)音似然性。判決階段的最終判決的應(yīng)用可追溯至緩沖器中的最早的幀。
在本發(fā)明的優(yōu)選實(shí)施例中,計(jì)時(shí)器/計(jì)數(shù)器118也適用于執(zhí)行圖2和圖3的檢測(cè)和判定處理中的定時(shí)功能。
信號(hào)處理器功能塊108、音頻處理功能塊109、VAD功能塊130和話音活動(dòng)判決功能塊135可以實(shí)現(xiàn)為不同的、操作地連接的處理組件。另外,一個(gè)或多個(gè)處理器可以用來實(shí)現(xiàn)一個(gè)或多個(gè)對(duì)應(yīng)的處理操作。在另一替換實(shí)施例中,上述功能塊可以實(shí)現(xiàn)為硬件、軟件或固件組件的混合,使用專用集成電路(ASIC)和/或處理器,例如數(shù)字信號(hào)處理器(DSP)。
當(dāng)然,音頻用戶單元100內(nèi)的各種元件可以實(shí)現(xiàn)為分開的或集成元件形式,因此最終結(jié)構(gòu)只是任意選擇的結(jié)果。
為了實(shí)現(xiàn)此目的,存在獲得在本發(fā)明的優(yōu)選實(shí)施例中使用的能量加速率指示的方法。
(i)理論上理想的方法是在話語(yǔ)的連續(xù)幀上精確地求能量級(jí)的二次導(dǎo)數(shù)(double-differentiate),如在先公開的申請(qǐng)US 6009391所示。這種方法的缺點(diǎn)是這可能引起延遲,因?yàn)樵诜治鰰r(shí)需要分析該幀的每側(cè)的多個(gè)幀。
(ii)能量加速率的零延遲估計(jì)可以通過把短時(shí)平均值與瞬時(shí)值比較來獲得,例如使用幀平均A~=xt(xt+xt-1+···+xt-n)/(n+1)---[1]]]>或使用滾動(dòng)平均
A~=xt(axt+bxt-1+···+kxt-n)---[2]]]>在每個(gè)情況下,該方法返回其可以解釋為‘減速率’<‘1’<‘加速率’的值。然后可以找到 的經(jīng)驗(yàn)值和把語(yǔ)音和噪聲最好地區(qū)分開的分母長(zhǎng)度。
本發(fā)明的發(fā)明人已意識(shí)到,優(yōu)選的最佳解決方案是找出可以快速跟蹤非平穩(wěn)噪聲的分母,但是其對(duì)于跟蹤話音開始來說太長(zhǎng)了。對(duì)于滾動(dòng)平均的建議的值序列是a=0.2、b=0.8×a、c=0.8×b等,其可以簡(jiǎn)單地表示為遞歸式dt=0.2xt+0.8dt-1[3]則A=xt/dt[4]檢測(cè)階段內(nèi)的優(yōu)選VAD和參數(shù)初始化系統(tǒng)在圖2的流程圖中概括出。在非平穩(wěn)噪聲中,長(zhǎng)時(shí)能量門限不是語(yǔ)音的可靠指示。類似地,在高噪聲條件下,語(yǔ)音的結(jié)構(gòu)(例如諧音)不能整個(gè)地依賴于指示,因?yàn)槠淇赡苁茉肼暺茐?,或者結(jié)構(gòu)噪聲可能使檢測(cè)器混淆。因此,優(yōu)選的話音活動(dòng)檢測(cè)器使用語(yǔ)音的噪聲魯棒性(noise-robust)特征,即與語(yǔ)音開始有關(guān)的能量加速率。
現(xiàn)在參考圖2,示出了優(yōu)選檢測(cè)處理的流程圖200。如上所指出,該處理包括逐幀分析。優(yōu)選VAD機(jī)制涉及‘整個(gè)頻譜’的測(cè)量處理。初始估算幀計(jì)數(shù)器來確定其是否小于‘N’,其限定了緩存幀的數(shù)目,如步驟205所示。作為優(yōu)選實(shí)施例的示例,‘N’設(shè)置為‘15’,假定設(shè)定為每幀遞增例如10毫秒。如果在步驟205中幀計(jì)數(shù)器小于‘N’,則更新初始加速率測(cè)試的滾動(dòng)平均值,如步驟210。如果在步驟205中幀計(jì)數(shù)器不小于‘N’,則跳過步驟210。
然后,作出估算能量加速率測(cè)量是否在一個(gè)或多個(gè)指定限度之內(nèi)的確定,如步驟235所示。如果在步驟235中能量加速率測(cè)量在一個(gè)或多個(gè)指定限度之內(nèi),則用進(jìn)一步的能量加速率測(cè)試的結(jié)果來更新滾動(dòng)平均值,如步驟240。如果在步驟235中能量加速率測(cè)量不是在一個(gè)或多個(gè)指定限度之內(nèi),則跳過步驟240。
然后,作出估算能量加速率測(cè)量是否大于指定門限的確定,如步驟260所示。如果在步驟260中能量加速率測(cè)量大于指定門限,則認(rèn)為該幀是語(yǔ)音幀,如步驟265。如果在步驟260中能量加速率測(cè)量不大于指定門限,則認(rèn)為該幀為噪聲幀,如步驟270。
然后遞增幀計(jì)數(shù)器,如步驟275,且該處理從步驟205開始重復(fù)。
作為對(duì)該處理的改善,替代或除此之外,還可以執(zhí)行整個(gè)頻譜測(cè)量處理,如可選步驟215和245所示的子區(qū)測(cè)量處理。頻譜的特定子區(qū)被選為很可能包含基本基音的子區(qū)。
在該子區(qū)處理中,當(dāng)在步驟210中在整個(gè)頻譜測(cè)量中更新初始加速率測(cè)試的滾動(dòng)平均時(shí),作出檢查能量加速率測(cè)量是否大于門限值的確定,如步驟220所示。如果在步驟220中該能量加速率測(cè)量大于該門限值,則掛起初始化其它參數(shù)的處理,如步驟225所示。如果在步驟220中該能量加速率測(cè)量不大于該門限值,則更新其它參數(shù)的初始化,如步驟230。然后該處理返回至步驟235,如所示。
在步驟235中作出估算能量加速率測(cè)量是否在一個(gè)或多個(gè)指定限度之內(nèi)的確定之后作出又一優(yōu)選確定。估算該減速率值來確定其在步驟250中是否是‘高’的,且如果是這樣的話,則緩慢地更新能量加速率測(cè)試的滾動(dòng)平均,如步驟255所示。然后該處理在步驟260返回至整個(gè)頻譜方法。
通過這樣的方式,子區(qū)檢測(cè)器的較高信噪比(SNR)使其具有較高的噪聲魯棒性。但是,其容易受不利的麥克風(fēng)和說話者變化以及限帶噪聲的影響。因此,該測(cè)量不應(yīng)當(dāng)依賴于所有的環(huán)境。因此,本發(fā)明的優(yōu)選實(shí)施例合并了子區(qū)檢測(cè)器,以加強(qiáng)整個(gè)頻譜測(cè)量。
又一測(cè)量處理優(yōu)選地使用例如每幀的頻譜的下半部分內(nèi)的值方差的‘加速率’來執(zhí)行。該方差測(cè)量檢測(cè)頻譜的下半部分內(nèi)的結(jié)構(gòu),使其對(duì)濁音語(yǔ)音高度敏感。方差測(cè)量遵循子區(qū)處理的方法,頻譜的下半部分是選擇的特定子區(qū)。這個(gè)方差測(cè)量進(jìn)一步補(bǔ)充了整個(gè)頻譜測(cè)量方法,其能夠更好地檢測(cè)清音和爆破音語(yǔ)音。
所有這三個(gè)測(cè)量從由雙重維納濾波器的第一階段產(chǎn)生的濾波器增益的譜表示中取出其原始輸入,如申請(qǐng)人為摩托羅拉公司且發(fā)明人為Yan-Ming Chen的US 09/427497的美國(guó)專利申請(qǐng)中所描述。如上所述,每個(gè)測(cè)量使用這個(gè)數(shù)據(jù)的不同方面。
具體地說,整個(gè)頻譜檢測(cè)器使用已知的由雙重韋納濾波器的第一階段產(chǎn)生的濾波器增益的Mel濾波的譜表示。單個(gè)輸入值是通過對(duì)Mel濾波器組的和進(jìn)行平方而獲得的。
在本發(fā)明的優(yōu)選實(shí)施例中,整個(gè)頻譜檢測(cè)器向所有幀應(yīng)用了下面的處理,如下所述步驟一以下述的方式初始化噪聲估計(jì)跟蹤值(Tracker)如果幀數(shù)<15且加速率<2.5,則跟蹤值=MAX(跟蹤值,輸入)。
如果語(yǔ)音在15幀的導(dǎo)入時(shí)間內(nèi)發(fā)生,則能量加速率測(cè)量防止跟蹤值被更新。
如果當(dāng)前輸入與噪聲估值相同,則步驟二以下面的方式更新跟蹤值如果輸入<跟蹤值×上限且輸入>跟蹤值×下限,則跟蹤值=a×跟蹤值+(1-a)×輸入步驟三對(duì)那些第一少數(shù)幀內(nèi)存在語(yǔ)音或無特征大噪聲內(nèi)容的實(shí)例提供了故障保險(xiǎn)機(jī)制。這致使所得的錯(cuò)誤高噪聲估值降低。步驟三優(yōu)選地以下面的方式進(jìn)行如果輸入<跟蹤值×最低值(Floor),則跟蹤值=b×跟蹤值+(1-b)×輸入如果當(dāng)前輸入比跟蹤值大165%,則步驟四以下面的方式返回,作為‘真’語(yǔ)音確定如果輸入>跟蹤值×門限,則輸出‘真’,否則輸出‘假’。
瞬時(shí)輸入與短時(shí)均值跟蹤值的比率是連續(xù)輸入的能量加速率的函數(shù)。
其中,在上述中a=0.8且b=0.97;上限是150%且下限是75%;最低值是50%;且門限是165%。
應(yīng)當(dāng)注意,如果該值大于上限或在下限和最低值之間,則不更新。此外,如上所指出,能量加速率輸入可以根據(jù)下述的方式計(jì)算在連續(xù)輸入上二次求導(dǎo)或通過跟蹤輸入的兩個(gè)滾動(dòng)平均的比率來估算。
應(yīng)當(dāng)注意,快速和緩慢自適應(yīng)滾動(dòng)平均的比率反映了連續(xù)輸入的能量加速率。
例如,上面所使用的對(duì)于該平均數(shù)的貢獻(xiàn)率是(i)0×均值+1×輸入,且(ii)((幀數(shù)-1)×均值+1×輸入)/幀數(shù),使能量加速率測(cè)量對(duì)首十五幀越來越敏感。
該子頻段檢測(cè)器優(yōu)選地使用從‘整個(gè)頻譜’測(cè)量得出的第二、第三和第四Mel濾波器組的平均數(shù)。然后,該檢測(cè)器以如下所述的方式對(duì)所有幀應(yīng)用了下面的處理(i)輸入=p×當(dāng)前輸入+(1-p)×先前輸入;(ii)如果幀數(shù)<15,則跟蹤值=MAX(跟蹤值,輸入);(iii)如果輸入<跟蹤值×上限且輸入>跟蹤值×下限,則跟蹤值=a×跟蹤值+(1-a)×輸入;(iv)如果輸入<跟蹤值×最低值,則跟蹤值=b×跟蹤值+(1-b)×輸入(v)如果輸入>跟蹤值×門限,則輸出‘真’,否則輸出‘假’。
其中,在子區(qū)測(cè)量中p=0.75。
除了等于3.25的門限外,對(duì)于整個(gè)頻譜測(cè)量,所有其它參數(shù)都相同。
對(duì)于頻譜方差測(cè)量,包括每幀增益的窄帶譜表示的下半部分頻率的值的方差被用作輸入。然后,該檢測(cè)器對(duì)整個(gè)頻譜測(cè)量應(yīng)用了相同的處理。
該方差計(jì)算為1NΣi=0N-1Wi2-(Σi=0N-1Wi)2/N2---[5]]]>其中N=FFT長(zhǎng)度/4,以及wi是增益的窄帶譜表示的值。
根據(jù)本發(fā)明的優(yōu)選實(shí)施例,上面所詳細(xì)描述的這三個(gè)測(cè)量被提供給VAD判決算法,如圖3的流程圖所示。連續(xù)輸入被提供給緩沖器,其提供上下文分析。這使得幀延遲等于緩沖器長(zhǎng)度減去一幀。
現(xiàn)在參考圖3,示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的用于噪聲環(huán)境的基于加速率的話音活動(dòng)驗(yàn)證處理的流程圖300。
對(duì)于N=7幀緩沖器,最近的真/假語(yǔ)音輸入被存儲(chǔ)在數(shù)據(jù)緩沖器中的位置N上,如步驟305所示。判決邏輯應(yīng)用若干個(gè)下面的步驟,并且優(yōu)選地應(yīng)用每一步驟步驟1VN=測(cè)量1或測(cè)量2或測(cè)量3如果這三個(gè)測(cè)量中的任何一個(gè)返回真語(yǔ)音指示,則輸入VN定義為‘真’(T)。
步驟2 該算法搜索緩沖器中的‘真’值的最長(zhǎng)連續(xù)序列,如步驟310。因此,例如,對(duì)于序列‘TTFTTTF’,M等于3。
步驟3
如果M≥SP且T<LS,T=LS;其中,SP等同于步驟315中的第一門限。如果在步驟315中真(T)語(yǔ)音值的最長(zhǎng)序列等于或超過第一門限,即SP=3或更多連續(xù)‘真’值,則緩沖器被判決為包含‘可能(possible)’的語(yǔ)音。如果在步驟320中確定還未存在(或超過),則在步驟325中啟動(dòng)例如LS=5幀的短計(jì)時(shí)器T(時(shí)間_1)。
步驟4如果M≥SL且F>FS,T=LM,否則T=LL;其中,SL等于步驟330中的第二門限。如果存在SL=4或更多連續(xù)的‘真’值,則再次判斷緩沖器包含‘可能(likely)’的語(yǔ)音。如果如步驟335中所確定的當(dāng)前幀F(xiàn)處于初始導(dǎo)入安全周期FS之外,則在步驟340中啟動(dòng)例如LM=22幀的中計(jì)時(shí)器T。否則,在步驟345中使用例如LL=40幀的故障保險(xiǎn)長(zhǎng)計(jì)時(shí)器T。在話語(yǔ)中的語(yǔ)音早期出現(xiàn)時(shí)使用這種布置會(huì)使VAD的初始的噪聲估值過高。
步驟5如果M<SP且T>0,T--;如果該處理在步驟350中確定存在小于SP=3的連續(xù)‘真’值且計(jì)時(shí)器在步驟355中大于零,則計(jì)時(shí)器在步驟360中遞減。
步驟6如果T>0,輸出‘真’,否則輸出‘假’;如果計(jì)時(shí)器在步驟365中大于零,則該處理輸出‘真’語(yǔ)音判決,如步驟370所示。另外,如果計(jì)時(shí)器在步驟365中不大于零,則該處理輸出‘噪聲’判決,如步驟375所示。
步驟7Frame++,把緩沖器向左移位且返回至步驟1。
在步驟380中準(zhǔn)備下一幀,緩沖器向左移位,以容納下一輸入,如根據(jù)圖4所示。該輸出語(yǔ)音判決應(yīng)用于從該緩沖器出來的幀。然后在步驟305中對(duì)輸入到數(shù)據(jù)緩沖器中的下一個(gè)真/假輸入重復(fù)該處理。
執(zhí)行根據(jù)如上所述的能量加速率處理作出語(yǔ)音或噪聲判決的替換機(jī)制也在本發(fā)明的考慮范圍之內(nèi)。例如,該判決機(jī)制可能不是基于一個(gè)或多個(gè)計(jì)時(shí)器,而可能完全地根據(jù)是否超過一個(gè)或多個(gè)能量加速率門限而作出判決的。
現(xiàn)在參考圖4,更詳細(xì)地示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的緩沖器操作400的示例。我們假定第一門限設(shè)置為三個(gè)連續(xù)的‘真’值。在“t”410時(shí),假定只有當(dāng)前輸入(幀#7)425和先前輸入(幀#6)420為‘真’。因此,當(dāng)該緩沖器移位時(shí),第一幀(幀#1)415將被標(biāo)記為假。
在‘t+1’430時(shí),第三‘真’輸入(幀#8)450已被接收,以增補(bǔ)以前的兩個(gè)‘真’輸入440和445。因此,當(dāng)該緩沖器移位時(shí),下一個(gè)輸出幀(幀#2)435將被標(biāo)記為‘真’。
應(yīng)當(dāng)注意,在上述的判定處理中,唯一的約束是(i)時(shí)間_1<時(shí)間_2<時(shí)間_3,且(ii)門限_1<門限_2。
假定只有這三個(gè)輸入(幀#6、幀#7和幀#8)為‘真’,則整個(gè)輸出序列是F T T T T T T T T T T1 2 3 4 5 6 7 8 9 10 11T T T T T T F F F F F12 13 14 15 16 17 18 19 20 21 22其中,由于緩沖器導(dǎo)入功能,幀#2-#5指示為‘真’。幀#6-#8指示‘真’,作為實(shí)際的初始‘真’語(yǔ)音輸入的位置。由于緩沖器導(dǎo)出功能,幀#9-#12指示為‘真’。響應(yīng)于所使用的計(jì)時(shí)器延遲,幀#13-#18指示‘真’。當(dāng)話語(yǔ)中的所有幀都被輸入時(shí),緩沖器移出‘假’條目(幀#19-#LM)直到清空。
緩沖器長(zhǎng)度和延遲計(jì)時(shí)器可以被動(dòng)態(tài)地調(diào)整為滿足音頻通信單元的需求,這也在本發(fā)明的范圍之內(nèi)。同樣,使用‘N’為8的緩沖器長(zhǎng)度的優(yōu)選實(shí)施例和5幀的延遲計(jì)時(shí)器只是出于解釋性的目的。但是,應(yīng)當(dāng)注意,緩沖器長(zhǎng)度‘N’應(yīng)當(dāng)總是確定為N≥SL。
除了用作其自身VAD之外,在圖2的方法步驟中執(zhí)行的能量加速率測(cè)量可以用于驗(yàn)證其它參數(shù)的初始化,這也在本發(fā)明的考慮范圍之內(nèi)。例如,頻譜提取方案根據(jù)語(yǔ)音的首十幀(典型地為100毫秒)來要求噪聲的初始估值。甚至在平穩(wěn)噪聲中,可能發(fā)生若干事件而致使初始估值無效。這種事件的示例包括(a)信號(hào)的上斜由于各種可能的原因,在估值時(shí),記錄的開始可能在該周期內(nèi)‘上斜’至滿值。完全上斜的原因包括數(shù)字系統(tǒng)中的緩沖器填充,模擬系統(tǒng)中的容量或帶頭連接。這些事件的影響使該估值無效。因此,能量加速率測(cè)量可以用于檢測(cè)這種上斜并防止出現(xiàn)這種失誤。
(b)初始信號(hào)中的毛刺普通‘毛刺’伴隨著用戶無線單元上的一鍵通(PTT)按鈕的完整動(dòng)作而發(fā)生,其中,電接觸極少發(fā)生在按鈕碰擊開關(guān)背部之前。如上所述,當(dāng)發(fā)生這種事件時(shí),能量加速率測(cè)量可以用于掛起估值處理,如圖2的步驟225所示。
(c)初始信號(hào)中的語(yǔ)音另一通常發(fā)生的事件是,具體地說對(duì)于PTT系統(tǒng),用戶在按下PTT按鈕時(shí)立即開始講話。通過這種方式,在語(yǔ)音開始之后進(jìn)行電接觸。能量加速率測(cè)量可以識(shí)別這一點(diǎn)且掛起基于噪聲的初始化,如圖2的步驟225所示,或者強(qiáng)迫使用故障估值。
總之,已對(duì)包括具有話音活動(dòng)檢測(cè)機(jī)制的音頻處理單元的通信單元進(jìn)行描述。話音活動(dòng)檢測(cè)機(jī)制提供輸入至通信單元的信號(hào)輸入的能量加速率的指示且根據(jù)所述指示來確定所述輸入信號(hào)是語(yǔ)音還是噪聲。
此外,已對(duì)檢測(cè)輸入到通信單元中的語(yǔ)音信號(hào)的方法進(jìn)行描述。該方法包括以下步驟指示輸入到通信單元的輸入信號(hào)的加速率;以及根據(jù)所述指示步驟來確定所述輸入信號(hào)是語(yǔ)音還是噪聲。
此外,已對(duì)判決輸入到通信單元中的信號(hào)是語(yǔ)音還是噪聲的方法進(jìn)行描述。該方法包括以下步驟根據(jù)能量加速率判決所述輸入信號(hào)是語(yǔ)音還是噪聲,例如使用若干輸入信號(hào)的幀平均或滾動(dòng)平均。
因此,應(yīng)當(dāng)理解,如上所述的用于噪聲環(huán)境的基于能量加速率的話音活動(dòng)檢測(cè)器和驗(yàn)證器提供了噪聲魯棒性和快速響應(yīng)的優(yōu)點(diǎn)。由于優(yōu)選實(shí)施例使用依賴于能量加速率的測(cè)量,而不是絕對(duì)的測(cè)量,所以在此所描述的發(fā)明構(gòu)思可以應(yīng)用于任何輸入電平的語(yǔ)音。
雖然上面已對(duì)本發(fā)明的實(shí)施例的特定和優(yōu)選實(shí)現(xiàn)進(jìn)行了描述,但是應(yīng)當(dāng)清楚,本領(lǐng)域的技術(shù)人員易于應(yīng)用落入本發(fā)明的范圍之內(nèi)的這種發(fā)明構(gòu)思的變化和修改。
因此,已對(duì)用于噪聲環(huán)境的經(jīng)改善的話音活動(dòng)檢測(cè)器和驗(yàn)證器進(jìn)行描述,其中,基本上消除了與現(xiàn)有技術(shù)布置相關(guān)聯(lián)的上述缺點(diǎn)。
權(quán)利要求
1.一種通信單元(100),其包含具有話音活動(dòng)檢測(cè)機(jī)制(130,135)的音頻處理單元(109),所述通信單元(100)的特征在于,所述話音活動(dòng)檢測(cè)機(jī)制(130,135)測(cè)量輸入到所述通信單元(100)中的信號(hào)的能量加速率,并根據(jù)所述測(cè)量確定所述輸入信號(hào)是語(yǔ)音還是噪聲。
2.如權(quán)利要求1所述的通信單元(100),其中,所述話音活動(dòng)檢測(cè)機(jī)制包括話音活動(dòng)檢測(cè)器功能塊(130),其對(duì)輸入到所述話音活動(dòng)檢測(cè)機(jī)制(130,135)中的信號(hào)執(zhí)行話音的逐幀檢測(cè)。
3.如權(quán)利要求2所述的通信單元(100),其中,所述逐幀檢測(cè)包括針對(duì)下述的頻率范圍中的一個(gè)或多個(gè)對(duì)輸入到所述話音活動(dòng)檢測(cè)機(jī)制(130,135)中的信號(hào)執(zhí)行能量加速率測(cè)量(i)整個(gè)頻譜(ii)頻譜子頻段;以及(iii)頻譜方差。
4.如權(quán)利要求3所述的通信單元(100),其中,所述話音活動(dòng)檢測(cè)機(jī)制包括話音活動(dòng)判決功能塊(135),其可操作地連接至所述話音活動(dòng)檢測(cè)器功能塊(130),以根據(jù)一個(gè)或多個(gè)所述測(cè)量的緩沖操作來判決所述輸入信號(hào)是否是語(yǔ)音。
5.如權(quán)利要求4所述的通信單元(100),其中,所述話音活動(dòng)判決功能塊(135)使用多個(gè)所述輸入信號(hào)的幀平均或滾動(dòng)平均來判決輸入信號(hào)是否是語(yǔ)音。
6.如權(quán)利要求2至5中的任一項(xiàng)所述的通信單元(100),其中,如果所述能量加速率測(cè)量得出大于能量加速率門限的能量加速率值,則認(rèn)為輸入幀是語(yǔ)音幀(265)。
7.如權(quán)利要求6所述的通信單元(100),其中,確定輸入幀是語(yǔ)音幀的判決(265)的應(yīng)用可追溯至輸入信號(hào)的緩沖器中的前面的幀。
8.如權(quán)利要求6或權(quán)利要求7所述的通信單元(100),其中,如果對(duì)于多個(gè)連續(xù)幀,所述能量加速率測(cè)量得出大于能量加速率門限的能量加速率值,則認(rèn)為輸入幀是語(yǔ)音幀(370)。
9.當(dāng)依賴于權(quán)利要求3時(shí),如權(quán)利要求3至8中的任一項(xiàng)所述的通信單元(100),其中,如果選擇輸入信號(hào)頻譜的子區(qū),則該選擇是基于子區(qū)最有可能包含話音信號(hào)的基本基音而作出的。
10.如前面的任一項(xiàng)權(quán)利要求所述的通信單元(100),其中,所述話音活動(dòng)檢測(cè)機(jī)制(130,135)使用話音能量的相關(guān)特征的加速率來驗(yàn)證其它話音或噪聲的相關(guān)量度的參數(shù)初始化,例如頻譜提取方案。
11.一種檢測(cè)輸入至通信單元中的語(yǔ)音信號(hào)的方法,其特征在于,包含以下步驟測(cè)量輸入至所述通信單元中的輸入信號(hào)的能量中的加速率或變化;以及根據(jù)所述測(cè)量步驟來確定(315,330,350)所述輸入信號(hào)是語(yǔ)音(370)還是噪聲(375)。
12.如權(quán)利要求11所述的語(yǔ)音信號(hào)檢測(cè)方法,其特征在于,進(jìn)一步包含以下步驟對(duì)輸入至所述通信單元中的信號(hào)執(zhí)行話音的逐幀檢測(cè)。
13.如權(quán)利要求12所述的語(yǔ)音信號(hào)檢測(cè)方法,其中,所述逐幀檢測(cè)包括以下步驟針對(duì)一個(gè)或多個(gè)下面的頻率范圍,對(duì)所述輸入信號(hào)執(zhí)行能量加速率測(cè)量(i)整個(gè)頻譜(ii)頻譜子頻段;以及(iii)頻譜方差。
14.一種判決輸入至通信單元中的信號(hào)是語(yǔ)音還是噪聲的方法,優(yōu)選地根據(jù)前面權(quán)利要求11至13中的任一項(xiàng)權(quán)利要求,該方法的特征在于,進(jìn)一步包含以下步驟根據(jù)所述輸入信號(hào)的能量測(cè)量中的能量加速率或變化來判決(315,330,350)所述輸入信號(hào)是語(yǔ)音(370)還是噪聲(375),例如使用多個(gè)輸入信號(hào)的幀平均或滾動(dòng)平均。
15.如權(quán)利要求14所述的判決輸入至通信單元中的信號(hào)是語(yǔ)音還是噪聲的方法,其中,所述判決步驟包括如果所述能量加速率測(cè)量得出能量加速率值大于能量加速率門限,則確定輸入幀是語(yǔ)音幀(265);以及把所述確定可追溯地應(yīng)用至輸入信號(hào)的緩沖器中的前面的幀。
全文摘要
一種通信單元(100),包括帶有話音活動(dòng)檢測(cè)機(jī)制(130,135)的音頻處理單元(109)。話音活動(dòng)檢測(cè)機(jī)制(130,135)測(cè)量輸入至通信單元(100)中的信號(hào)的能量加速率,并根據(jù)所述測(cè)量確定所述輸入信號(hào)是語(yǔ)音還是噪聲。還描述了一種檢測(cè)話音的方法和一種判決輸入信號(hào)是語(yǔ)音還是噪聲的方法。使用基于能量加速率的話音活動(dòng)檢測(cè)器和驗(yàn)證器,特別對(duì)于噪聲環(huán)境,提供了噪聲魯棒性、快速響應(yīng)和輸入語(yǔ)音電平獨(dú)立的優(yōu)點(diǎn)。
文檔編號(hào)G10L25/78GK1623186SQ03802682
公開日2005年6月1日 申請(qǐng)日期2003年1月10日 優(yōu)先權(quán)日2002年1月24日
發(fā)明者道格拉斯·拉爾夫·伊利, 霍利·路易斯·凱萊赫, 戴維·約翰·本杰明·皮爾斯 申請(qǐng)人:摩托羅拉公司