用于噪聲環(huán)境的話音活動(dòng)檢測(cè)器和驗(yàn)證器的制作方法

文檔序號(hào)：2821004閱讀：258來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于噪聲環(huán)境的話音活動(dòng)檢測(cè)器和驗(yàn)證器的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及噪聲環(huán)境內(nèi)的語(yǔ)音的檢測(cè)(通常稱為話音活動(dòng)檢測(cè)(VAD))。本發(fā)明適用于(但并不限于)語(yǔ)音檢測(cè)系統(tǒng)中的話音信號(hào)的能量加速率測(cè)量。
背景技術(shù)：
許多話音通信系統(tǒng)，例如針對(duì)個(gè)人移動(dòng)無線用戶的全球移動(dòng)通信系統(tǒng)(GSM)蜂窩電話標(biāo)準(zhǔn)和陸地中繼無線(TETRA)系統(tǒng)使用語(yǔ)音處理單元來編碼和解碼語(yǔ)音模式。在這種話音通信系統(tǒng)中，語(yǔ)音編碼器把模擬語(yǔ)音模式轉(zhuǎn)換為傳輸用的合適的數(shù)字格式。語(yǔ)音解碼器把接收的數(shù)字語(yǔ)音信號(hào)轉(zhuǎn)換為音頻模擬語(yǔ)音模式。
用于檢測(cè)話音活動(dòng)的方法和設(shè)備在本技術(shù)領(lǐng)域中已公知。話音活動(dòng)檢測(cè)器(VAD)在假設(shè)語(yǔ)音只存在于音頻信號(hào)的一部分中的假設(shè)下工作。這個(gè)假設(shè)通常是正確的，因?yàn)樵S多音頻信號(hào)間隔只具有靜音或背景噪聲。
話音活動(dòng)檢測(cè)器可以用于許多目的。這些包括當(dāng)在沒有語(yǔ)音時(shí)抑制傳輸系統(tǒng)中的整個(gè)傳輸活動(dòng)，從而潛在地節(jié)約了功率和信道帶寬。當(dāng)VAD檢測(cè)到語(yǔ)音活動(dòng)繼續(xù)進(jìn)行時(shí)，能夠重新開始傳輸活動(dòng)。
話音活動(dòng)檢測(cè)器還可以與語(yǔ)音存儲(chǔ)設(shè)備結(jié)合使用，把包括語(yǔ)音的音頻部分與“無語(yǔ)音”部分區(qū)分開。包括語(yǔ)音的部分后來被存儲(chǔ)在存儲(chǔ)設(shè)備中而“無語(yǔ)音”部分被丟棄。
用于檢測(cè)話音的現(xiàn)有方法至少部分地基于用于檢測(cè)和估算語(yǔ)音信號(hào)的功率的方法。估算的功率與一常數(shù)或一自適應(yīng)門限比較，以作出該信號(hào)是否是語(yǔ)音的判決。這些方法的主要優(yōu)點(diǎn)在于其低復(fù)雜度，這使得它們適用于低處理資源的實(shí)施。這種方法的主要缺點(diǎn)是背景噪聲可能無意中導(dǎo)致在實(shí)際上沒有“語(yǔ)音”的時(shí)候檢測(cè)到“語(yǔ)音”。另外，因?yàn)楹磺澹瑢?shí)際存在的“語(yǔ)音”可能未被檢測(cè)到，并且由于背景噪聲而導(dǎo)致難以檢測(cè)到。
用于檢測(cè)語(yǔ)音活動(dòng)的一些方法針對(duì)于噪聲移動(dòng)環(huán)境且基于語(yǔ)音信號(hào)的自適應(yīng)濾波。這在最終判決之前降低了來自該信號(hào)的噪聲內(nèi)容。由于該方法用于不同的說話者和不同的環(huán)境，所以頻譜和噪聲電平可能發(fā)生改變。因此，輸入濾波器和門限通常是自適應(yīng)的，以跟蹤這些變化。
這些方法的示例在分別用于半速率、全速率和增強(qiáng)全速率語(yǔ)音業(yè)務(wù)信道的GSM規(guī)范06.42話音活動(dòng)檢測(cè)器(VAD)中提供。另一這種方法是ITU G.729附錄B中所建議的“Multi-Boundary Voice ActivityDetection Algorithm(多界限話音活動(dòng)檢測(cè)算法)”。這些方法在噪聲環(huán)境中很準(zhǔn)確，但是實(shí)施起來很復(fù)雜。
所有這些方法都需要輸入語(yǔ)音信號(hào)。采用語(yǔ)音解壓縮方案的一些應(yīng)用在語(yǔ)音解壓縮處理期間需要執(zhí)行語(yǔ)音檢測(cè)。
Benyassine等人的歐洲專利申請(qǐng)No.EP-A-0785419涉及一種用于話音活動(dòng)檢測(cè)的方法，該方法包括以下步驟(i)從每幀的呼入語(yǔ)音信號(hào)中提取出預(yù)定集的參數(shù)，以及(ii)根據(jù)從預(yù)定集的參數(shù)中提取出的偏差測(cè)量集來對(duì)每幀的呼入語(yǔ)音信號(hào)作出幀話音判決。
蜂窩系統(tǒng)中的VAD進(jìn)行偏置，以確保當(dāng)一方說話時(shí)，包括語(yǔ)音編解碼器和RF電路等的無線設(shè)備被激活，以把該語(yǔ)音傳送至背景噪聲及其它損傷環(huán)境中的另一方。但是，這導(dǎo)致在一方?jīng)]有說話時(shí)出現(xiàn)數(shù)據(jù)傳輸。這種方法的代價(jià)是稍微降低了電池壽命和稍微增加了對(duì)該系統(tǒng)的其它單元中的同信道用戶的干擾。這些基本上是第二(或更高)階效應(yīng)。
在這些系統(tǒng)中，沒有對(duì)有限資源可用于雙工呼叫的構(gòu)思。通常在不同載波上的上行鏈路和下行鏈路完全可以一致同時(shí)使用整個(gè)帶寬。
在本發(fā)明的領(lǐng)域中已公知，一些話音活動(dòng)或話音開始檢測(cè)器(VAD/VOD)試圖使用諸如諧波結(jié)構(gòu)(例如通過自相關(guān))的語(yǔ)音特性來辨別濁音語(yǔ)音(voiced speech)。但是，在噪音中，由于語(yǔ)音結(jié)構(gòu)的破壞或由于噪聲中的結(jié)構(gòu)，這些結(jié)構(gòu)指示符可能失效。這例如可以是汽車中的引擎、輪胎或空調(diào)噪聲。最后，這些方法在檢測(cè)清音語(yǔ)音(unvoiced speech)方面上較弱。
其替換物只是使用幀能量級(jí)來檢測(cè)語(yǔ)音。這對(duì)于高信噪比(SNR)條件的語(yǔ)音是令人滿意的，其中，可以設(shè)置高于噪聲電平的任意門限來表示語(yǔ)音。但是，這種方法在很多實(shí)際噪聲條件中失效。
對(duì)于非歸一化的數(shù)據(jù)庫(kù)或在實(shí)際應(yīng)用中，一個(gè)示例集中的噪聲電平很可能比另一示例集中的語(yǔ)音電平高，這使得不能設(shè)置門限值?？朔@個(gè)問題的現(xiàn)有方法是取話語(yǔ)的大約第一個(gè)100毫秒的平均值，假定這代表噪聲，從而創(chuàng)建用于該話語(yǔ)的特定門限。但是，此外，這對(duì)于非平穩(wěn)噪聲是不夠的，其中該噪聲可能迅速偏離初始估計(jì)值，其中該噪聲具有高方差或其中第一少數(shù)幀實(shí)際上包含不是假定噪聲的語(yǔ)音。
因此，需要有一種用于噪聲環(huán)境的經(jīng)改善的話音活動(dòng)檢測(cè)器和驗(yàn)證器，其可以緩和上述缺點(diǎn)。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面，提供了一種如權(quán)利要求1所述的通信單元。
根據(jù)本發(fā)明的第二方面，提供了一種如權(quán)利要求11所述的檢測(cè)輸入到通信單元中的語(yǔ)音信號(hào)的方法。
根據(jù)本發(fā)明的第三方面，提供了一種如權(quán)利要求14所述的確定輸入到通信單元中的信號(hào)是語(yǔ)音還是噪聲的方法。
本發(fā)明的其它方面如其從屬權(quán)利要求中所述。
總之，本發(fā)明旨在通過使用能量加速率測(cè)量(優(yōu)選為能量幅度測(cè)量)來解決任意幅度的非平穩(wěn)噪聲的情況，以表示存在或不存在語(yǔ)音。

現(xiàn)在參考附圖對(duì)本發(fā)明的示例性實(shí)施例進(jìn)行描述，在附圖中圖1示出了適用于執(zhí)行本發(fā)明的優(yōu)選實(shí)施例的話音活動(dòng)檢測(cè)和驗(yàn)證的通信單元的方框圖；圖2示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的用于噪聲環(huán)境的基于能量加速率的話音活動(dòng)檢測(cè)器的流程圖；圖3示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的用于噪聲環(huán)境的基于能量加速率的話音活動(dòng)驗(yàn)證的流程圖；以及圖4示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的緩沖器操作。
具體實(shí)施例方式
濁音語(yǔ)音具有相對(duì)較高的能量加速率值，因?yàn)闈嵋粽Z(yǔ)音的開始依賴于或振動(dòng)或靜止的聲帶的活動(dòng)。類似地，清音的開始(例如爆破音)也具有高能量加速率。
本發(fā)明人已意識(shí)到，在代表性的有明顯語(yǔ)音特征的域中，例如窄帶功率譜或Mel頻譜，所得的能量加速率大大高于非平穩(wěn)噪聲。唯一主要的例外是沖擊噪聲(例如鼓掌)。
因此，根據(jù)本發(fā)明的優(yōu)選實(shí)施例，本發(fā)明人已發(fā)現(xiàn)通過集中可能含有話音信號(hào)的基本基音的頻率區(qū)中的能量，而能夠另外與這些噪聲區(qū)分開。具體地說，本發(fā)明的發(fā)明人建議使用語(yǔ)音的非結(jié)構(gòu)特征，即能量加速率(或反映語(yǔ)音能量或其分量的一些度量的加速率)。
具體地說，對(duì)于在此所描述的發(fā)明構(gòu)思的優(yōu)選應(yīng)用是目前正由歐洲電信標(biāo)準(zhǔn)協(xié)會(huì)(ETSI)所定義的分布式語(yǔ)音識(shí)別(DSR)標(biāo)準(zhǔn)“SpeechProcessing；Transmission and Quality aspects(STQ)；Distributed speechrecognition；Front-end feature extraction algorithm；Compressionalgorithm(語(yǔ)音處理、傳輸和質(zhì)量方面(STQ)；分布式語(yǔ)音識(shí)別；前端特征提取算法；壓縮算法)”，ETSI ES 201 108 vl.1.2(2000-04)，2000年4月。
現(xiàn)在參考圖1，示出了適用于支持本發(fā)明的優(yōu)選實(shí)施例的發(fā)明構(gòu)思的音頻用戶單元100的方框圖。
根據(jù)無線音頻通信單元來描述本發(fā)明的優(yōu)選實(shí)施例，例如能夠在用于未來蜂窩無線通信系統(tǒng)的第三代合作項(xiàng)目(3GPP)標(biāo)準(zhǔn)下運(yùn)行且提供DSR能力的無線音頻通信單元。但是，在此所描述的關(guān)于話音活動(dòng)檢測(cè)和驗(yàn)證的發(fā)明構(gòu)思同樣適用于響應(yīng)話音信號(hào)且可以從經(jīng)改善的話音活動(dòng)檢測(cè)電路中獲益的任何電子器件，這也在本發(fā)明的范圍之內(nèi)。
如在本技術(shù)領(lǐng)域中已知，音頻用戶單元100包含優(yōu)選地連接至雙工濾波器、天線開關(guān)或循環(huán)器104的天線102，循環(huán)器104使音頻用戶單元100內(nèi)的接收鏈和發(fā)送鏈之間隔離。
接收器鏈包括接收器前端電路106(有效提供接收、濾波和中頻或基帶頻率轉(zhuǎn)換)。前端電路106串聯(lián)連接至信號(hào)處理功能塊(一般由數(shù)字信號(hào)處理器(DSP)實(shí)現(xiàn))108。信號(hào)處理功能塊108執(zhí)行信號(hào)解調(diào)、糾錯(cuò)和格式化。從信號(hào)處理功能塊108恢復(fù)的數(shù)據(jù)串聯(lián)連接至音頻處理功能塊109，其以合適的方式格式化接收信號(hào)，以發(fā)送至音頻發(fā)音器/顯示器111。
在本發(fā)明的不同實(shí)施例中，信號(hào)處理功能塊108和音頻處理功能塊109可以設(shè)置在相同的物理設(shè)備內(nèi)?？刂破?14被安置來控制用戶單元100的組件的信息流和運(yùn)行狀態(tài)。
至于發(fā)送鏈，這基本上包括音頻輸入設(shè)備120，其串聯(lián)連接音頻處理功能塊109、信號(hào)處理功能塊108、發(fā)射器/調(diào)制電路122和功率放大器124。處理器108、發(fā)射器/調(diào)制電路122和功率放大器124可操作地響應(yīng)控制器。功率放大器輸出被連接至雙工濾波器、天線開關(guān)或循環(huán)器104以及天線102，以發(fā)射最終的射頻信號(hào)。
具體地說，音頻處理功能塊109包括話音活動(dòng)(或話音開始)檢測(cè)(VAD)功能塊130，其操作地連接至話音活動(dòng)判決功能塊135。根據(jù)本發(fā)明的優(yōu)選實(shí)施例，VAD功能塊130和話音活動(dòng)判決功能塊135適用于提供經(jīng)改善的話音檢測(cè)和判決機(jī)制，其操作將根據(jù)圖2和圖3得到進(jìn)一步的描述。應(yīng)當(dāng)注意，話音活動(dòng)檢測(cè)器功能塊130包括由三個(gè)測(cè)量組成的逐幀檢測(cè)階段。這三個(gè)頻率范圍測(cè)量包括(i)整個(gè)頻譜；(ii)頻譜子頻段；以及
(iii)頻譜方差。
接著，話音活動(dòng)判決功能塊135根據(jù)測(cè)量的緩沖器來執(zhí)行判決，分析其語(yǔ)音似然性。判決階段的最終判決的應(yīng)用可追溯至緩沖器中的最早的幀。
在本發(fā)明的優(yōu)選實(shí)施例中，計(jì)時(shí)器/計(jì)數(shù)器118也適用于執(zhí)行圖2和圖3的檢測(cè)和判定處理中的定時(shí)功能。
信號(hào)處理器功能塊108、音頻處理功能塊109、VAD功能塊130和話音活動(dòng)判決功能塊135可以實(shí)現(xiàn)為不同的、操作地連接的處理組件。另外，一個(gè)或多個(gè)處理器可以用來實(shí)現(xiàn)一個(gè)或多個(gè)對(duì)應(yīng)的處理操作。在另一替換實(shí)施例中，上述功能塊可以實(shí)現(xiàn)為硬件、軟件或固件組件的混合，使用專用集成電路(ASIC)和/或處理器，例如數(shù)字信號(hào)處理器(DSP)。
當(dāng)然，音頻用戶單元100內(nèi)的各種元件可以實(shí)現(xiàn)為分開的或集成元件形式，因此最終結(jié)構(gòu)只是任意選擇的結(jié)果。
為了實(shí)現(xiàn)此目的，存在獲得在本發(fā)明的優(yōu)選實(shí)施例中使用的能量加速率指示的方法。
(i)理論上理想的方法是在話語(yǔ)的連續(xù)幀上精確地求能量級(jí)的二次導(dǎo)數(shù)(double-differentiate)，如在先公開的申請(qǐng)US 6009391所示。這種方法的缺點(diǎn)是這可能引起延遲，因?yàn)樵诜治鰰r(shí)需要分析該幀的每側(cè)的多個(gè)幀。
(ii)能量加速率的零延遲估計(jì)可以通過把短時(shí)平均值與瞬時(shí)值比較來獲得，例如使用幀平均A~=xt(xt+xt-1+···+xt-n)/(n+1)---[1]]]>或使用滾動(dòng)平均
A~=xt(axt+bxt-1+···+kxt-n)---[2]]]>在每個(gè)情況下，該方法返回其可以解釋為‘減速率’＜‘1’＜‘加速率’的值。然后可以找到的經(jīng)驗(yàn)值和把語(yǔ)音和噪聲最好地區(qū)分開的分母長(zhǎng)度。
本發(fā)明的發(fā)明人已意識(shí)到，優(yōu)選的最佳解決方案是找出可以快速跟蹤非平穩(wěn)噪聲的分母，但是其對(duì)于跟蹤話音開始來說太長(zhǎng)了。對(duì)于滾動(dòng)平均的建議的值序列是a＝0.2、b＝0.8×a、c＝0.8×b等，其可以簡(jiǎn)單地表示為遞歸式dt＝0.2xt+0.8dt-1[3]則A＝xt/dt[4]檢測(cè)階段內(nèi)的優(yōu)選VAD和參數(shù)初始化系統(tǒng)在圖2的流程圖中概括出。在非平穩(wěn)噪聲中，長(zhǎng)時(shí)能量門限不是語(yǔ)音的可靠指示。類似地，在高噪聲條件下，語(yǔ)音的結(jié)構(gòu)(例如諧音)不能整個(gè)地依賴于指示，因?yàn)槠淇赡苁茉肼暺茐?，或者結(jié)構(gòu)噪聲可能使檢測(cè)器混淆。因此，優(yōu)選的話音活動(dòng)檢測(cè)器使用語(yǔ)音的噪聲魯棒性(noise-robust)特征，即與語(yǔ)音開始有關(guān)的能量加速率。
現(xiàn)在參考圖2，示出了優(yōu)選檢測(cè)處理的流程圖200。如上所指出，該處理包括逐幀分析。優(yōu)選VAD機(jī)制涉及‘整個(gè)頻譜’的測(cè)量處理。初始估算幀計(jì)數(shù)器來確定其是否小于‘N’，其限定了緩存幀的數(shù)目，如步驟205所示。作為優(yōu)選實(shí)施例的示例，‘N’設(shè)置為‘15’，假定設(shè)定為每幀遞增例如10毫秒。如果在步驟205中幀計(jì)數(shù)器小于‘N’，則更新初始加速率測(cè)試的滾動(dòng)平均值，如步驟210。如果在步驟205中幀計(jì)數(shù)器不小于‘N’，則跳過步驟210。
然后，作出估算能量加速率測(cè)量是否在一個(gè)或多個(gè)指定限度之內(nèi)的確定，如步驟235所示。如果在步驟235中能量加速率測(cè)量在一個(gè)或多個(gè)指定限度之內(nèi)，則用進(jìn)一步的能量加速率測(cè)試的結(jié)果來更新滾動(dòng)平均值，如步驟240。如果在步驟235中能量加速率測(cè)量不是在一個(gè)或多個(gè)指定限度之內(nèi)，則跳過步驟240。
然后，作出估算能量加速率測(cè)量是否大于指定門限的確定，如步驟260所示。如果在步驟260中能量加速率測(cè)量大于指定門限，則認(rèn)為該幀是語(yǔ)音幀，如步驟265。如果在步驟260中能量加速率測(cè)量不大于指定門限，則認(rèn)為該幀為噪聲幀，如步驟270。
然后遞增幀計(jì)數(shù)器，如步驟275，且該處理從步驟205開始重復(fù)。
作為對(duì)該處理的改善，替代或除此之外，還可以執(zhí)行整個(gè)頻譜測(cè)量處理，如可選步驟215和245所示的子區(qū)測(cè)量處理。頻譜的特定子區(qū)被選為很可能包含基本基音的子區(qū)。
在該子區(qū)處理中，當(dāng)在步驟210中在整個(gè)頻譜測(cè)量中更新初始加速率測(cè)試的滾動(dòng)平均時(shí)，作出檢查能量加速率測(cè)量是否大于門限值的確定，如步驟220所示。如果在步驟220中該能量加速率測(cè)量大于該門限值，則掛起初始化其它參數(shù)的處理，如步驟225所示。如果在步驟220中該能量加速率測(cè)量不大于該門限值，則更新其它參數(shù)的初始化，如步驟230。然后該處理返回至步驟235，如所示。
在步驟235中作出估算能量加速率測(cè)量是否在一個(gè)或多個(gè)指定限度之內(nèi)的確定之后作出又一優(yōu)選確定。估算該減速率值來確定其在步驟250中是否是‘高’的，且如果是這樣的話，則緩慢地更新能量加速率測(cè)試的滾動(dòng)平均，如步驟255所示。然后該處理在步驟260返回至整個(gè)頻譜方法。
通過這樣的方式，子區(qū)檢測(cè)器的較高信噪比(SNR)使其具有較高的噪聲魯棒性。但是，其容易受不利的麥克風(fēng)和說話者變化以及限帶噪聲的影響。因此，該測(cè)量不應(yīng)當(dāng)依賴于所有的環(huán)境。因此，本發(fā)明的優(yōu)選實(shí)施例合并了子區(qū)檢測(cè)器，以加強(qiáng)整個(gè)頻譜測(cè)量。
又一測(cè)量處理優(yōu)選地使用例如每幀的頻譜的下半部分內(nèi)的值方差的‘加速率’來執(zhí)行。該方差測(cè)量檢測(cè)頻譜的下半部分內(nèi)的結(jié)構(gòu)，使其對(duì)濁音語(yǔ)音高度敏感。方差測(cè)量遵循子區(qū)處理的方法，頻譜的下半部分是選擇的特定子區(qū)。這個(gè)方差測(cè)量進(jìn)一步補(bǔ)充了整個(gè)頻譜測(cè)量方法，其能夠更好地檢測(cè)清音和爆破音語(yǔ)音。
所有這三個(gè)測(cè)量從由雙重維納濾波器的第一階段產(chǎn)生的濾波器增益的譜表示中取出其原始輸入，如申請(qǐng)人為摩托羅拉公司且發(fā)明人為Yan-Ming Chen的US 09/427497的美國(guó)專利申請(qǐng)中所描述。如上所述，每個(gè)測(cè)量使用這個(gè)數(shù)據(jù)的不同方面。
具體地說，整個(gè)頻譜檢測(cè)器使用已知的由雙重韋納濾波器的第一階段產(chǎn)生的濾波器增益的Mel濾波的譜表示。單個(gè)輸入值是通過對(duì)Mel濾波器組的和進(jìn)行平方而獲得的。
在本發(fā)明的優(yōu)選實(shí)施例中，整個(gè)頻譜檢測(cè)器向所有幀應(yīng)用了下面的處理，如下所述步驟一以下述的方式初始化噪聲估計(jì)跟蹤值(Tracker)如果幀數(shù)＜15且加速率＜2.5，則跟蹤值＝MAX(跟蹤值，輸入)。
如果語(yǔ)音在15幀的導(dǎo)入時(shí)間內(nèi)發(fā)生，則能量加速率測(cè)量防止跟蹤值被更新。
如果當(dāng)前輸入與噪聲估值相同，則步驟二以下面的方式更新跟蹤值如果輸入＜跟蹤值×上限且輸入＞跟蹤值×下限，則跟蹤值＝a×跟蹤值+(1-a)×輸入步驟三對(duì)那些第一少數(shù)幀內(nèi)存在語(yǔ)音或無特征大噪聲內(nèi)容的實(shí)例提供了故障保險(xiǎn)機(jī)制。這致使所得的錯(cuò)誤高噪聲估值降低。步驟三優(yōu)選地以下面的方式進(jìn)行如果輸入＜跟蹤值×最低值(Floor)，則跟蹤值＝b×跟蹤值+(1-b)×輸入如果當(dāng)前輸入比跟蹤值大165％，則步驟四以下面的方式返回，作為‘真’語(yǔ)音確定如果輸入＞跟蹤值×門限，則輸出‘真’，否則輸出‘假’。
瞬時(shí)輸入與短時(shí)均值跟蹤值的比率是連續(xù)輸入的能量加速率的函數(shù)。
其中，在上述中a＝0.8且b＝0.97；上限是150％且下限是75％；最低值是50％；且門限是165％。
應(yīng)當(dāng)注意，如果該值大于上限或在下限和最低值之間，則不更新。此外，如上所指出，能量加速率輸入可以根據(jù)下述的方式計(jì)算在連續(xù)輸入上二次求導(dǎo)或通過跟蹤輸入的兩個(gè)滾動(dòng)平均的比率來估算。
應(yīng)當(dāng)注意，快速和緩慢自適應(yīng)滾動(dòng)平均的比率反映了連續(xù)輸入的能量加速率。
例如，上面所使用的對(duì)于該平均數(shù)的貢獻(xiàn)率是(i)0×均值+1×輸入，且(ii)((幀數(shù)-1)×均值+1×輸入)/幀數(shù)，使能量加速率測(cè)量對(duì)首十五幀越來越敏感。
該子頻段檢測(cè)器優(yōu)選地使用從‘整個(gè)頻譜’測(cè)量得出的第二、第三和第四Mel濾波器組的平均數(shù)。然后，該檢測(cè)器以如下所述的方式對(duì)所有幀應(yīng)用了下面的處理(i)輸入＝p×當(dāng)前輸入+(1-p)×先前輸入；(ii)如果幀數(shù)＜15，則跟蹤值＝MAX(跟蹤值，輸入)；(iii)如果輸入＜跟蹤值×上限且輸入＞跟蹤值×下限，則跟蹤值＝a×跟蹤值+(1-a)×輸入；(iv)如果輸入＜跟蹤值×最低值，則跟蹤值＝b×跟蹤值+(1-b)×輸入(v)如果輸入＞跟蹤值×門限，則輸出‘真’，否則輸出‘假’。
其中，在子區(qū)測(cè)量中p＝0.75。
除了等于3.25的門限外，對(duì)于整個(gè)頻譜測(cè)量，所有其它參數(shù)都相同。
對(duì)于頻譜方差測(cè)量，包括每幀增益的窄帶譜表示的下半部分頻率的值的方差被用作輸入。然后，該檢測(cè)器對(duì)整個(gè)頻譜測(cè)量應(yīng)用了相同的處理。
該方差計(jì)算為1NΣi=0N-1Wi2-(Σi=0N-1Wi)2/N2---[5]]]>其中N＝FFT長(zhǎng)度/4，以及wi是增益的窄帶譜表示的值。
根據(jù)本發(fā)明的優(yōu)選實(shí)施例，上面所詳細(xì)描述的這三個(gè)測(cè)量被提供給VAD判決算法，如圖3的流程圖所示。連續(xù)輸入被提供給緩沖器，其提供上下文分析。這使得幀延遲等于緩沖器長(zhǎng)度減去一幀。
現(xiàn)在參考圖3，示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的用于噪聲環(huán)境的基于加速率的話音活動(dòng)驗(yàn)證處理的流程圖300。
對(duì)于N＝7幀緩沖器，最近的真/假語(yǔ)音輸入被存儲(chǔ)在數(shù)據(jù)緩沖器中的位置N上，如步驟305所示。判決邏輯應(yīng)用若干個(gè)下面的步驟，并且優(yōu)選地應(yīng)用每一步驟步驟1VN＝測(cè)量1或測(cè)量2或測(cè)量3如果這三個(gè)測(cè)量中的任何一個(gè)返回真語(yǔ)音指示，則輸入VN定義為‘真’(T)。
步驟2 該算法搜索緩沖器中的‘真’值的最長(zhǎng)連續(xù)序列，如步驟310。因此，例如，對(duì)于序列‘TTFTTTF’，M等于3。
步驟3
如果M≥SP且T＜LS，T＝LS；其中，SP等同于步驟315中的第一門限。如果在步驟315中真(T)語(yǔ)音值的最長(zhǎng)序列等于或超過第一門限，即SP＝3或更多連續(xù)‘真’值，則緩沖器被判決為包含‘可能(possible)’的語(yǔ)音。如果在步驟320中確定還未存在(或超過)，則在步驟325中啟動(dòng)例如LS＝5幀的短計(jì)時(shí)器T(時(shí)間_1)。
步驟4如果M≥SL且F＞FS，T＝LM，否則T＝LL；其中，SL等于步驟330中的第二門限。如果存在SL＝4或更多連續(xù)的‘真’值，則再次判斷緩沖器包含‘可能(likely)’的語(yǔ)音。如果如步驟335中所確定的當(dāng)前幀F(xiàn)處于初始導(dǎo)入安全周期FS之外，則在步驟340中啟動(dòng)例如LM＝22幀的中計(jì)時(shí)器T。否則，在步驟345中使用例如LL＝40幀的故障保險(xiǎn)長(zhǎng)計(jì)時(shí)器T。在話語(yǔ)中的語(yǔ)音早期出現(xiàn)時(shí)使用這種布置會(huì)使VAD的初始的噪聲估值過高。
步驟5如果M＜SP且T＞0，T--；如果該處理在步驟350中確定存在小于SP＝3的連續(xù)‘真’值且計(jì)時(shí)器在步驟355中大于零，則計(jì)時(shí)器在步驟360中遞減。
步驟6如果T＞0，輸出‘真’，否則輸出‘假’；如果計(jì)時(shí)器在步驟365中大于零，則該處理輸出‘真’語(yǔ)音判決，如步驟370所示。另外，如果計(jì)時(shí)器在步驟365中不大于零，則該處理輸出‘噪聲’判決，如步驟375所示。
步驟7Frame++，把緩沖器向左移位且返回至步驟1。
在步驟380中準(zhǔn)備下一幀，緩沖器向左移位，以容納下一輸入，如根據(jù)圖4所示。該輸出語(yǔ)音判決應(yīng)用于從該緩沖器出來的幀。然后在步驟305中對(duì)輸入到數(shù)據(jù)緩沖器中的下一個(gè)真/假輸入重復(fù)該處理。
執(zhí)行根據(jù)如上所述的能量加速率處理作出語(yǔ)音或噪聲判決的替換機(jī)制也在本發(fā)明的考慮范圍之內(nèi)。例如，該判決機(jī)制可能不是基于一個(gè)或多個(gè)計(jì)時(shí)器，而可能完全地根據(jù)是否超過一個(gè)或多個(gè)能量加速率門限而作出判決的。
現(xiàn)在參考圖4，更詳細(xì)地示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的緩沖器操作400的示例。我們假定第一門限設(shè)置為三個(gè)連續(xù)的‘真’值。在“t”410時(shí)，假定只有當(dāng)前輸入(幀#7)425和先前輸入(幀#6)420為‘真’。因此，當(dāng)該緩沖器移位時(shí)，第一幀(幀#1)415將被標(biāo)記為假。
在‘t+1’430時(shí)，第三‘真’輸入(幀#8)450已被接收，以增補(bǔ)以前的兩個(gè)‘真’輸入440和445。因此，當(dāng)該緩沖器移位時(shí)，下一個(gè)輸出幀(幀#2)435將被標(biāo)記為‘真’。
應(yīng)當(dāng)注意，在上述的判定處理中，唯一的約束是(i)時(shí)間_1＜時(shí)間_2＜時(shí)間_3，且(ii)門限_1＜門限_2。
假定只有這三個(gè)輸入(幀#6、幀#7和幀#8)為‘真’，則整個(gè)輸出序列是F T T T T T T T T T T1 2 3 4 5 6 7 8 9 10 11T T T T T T F F F F F12 13 14 15 16 17 18 19 20 21 22其中，由于緩沖器導(dǎo)入功能，幀#2-#5指示為‘真’。幀#6-#8指示‘真’，作為實(shí)際的初始‘真’語(yǔ)音輸入的位置。由于緩沖器導(dǎo)出功能，幀#9-#12指示為‘真’。響應(yīng)于所使用的計(jì)時(shí)器延遲，幀#13-#18指示‘真’。當(dāng)話語(yǔ)中的所有幀都被輸入時(shí)，緩沖器移出‘假’條目(幀#19-#LM)直到清空。
緩沖器長(zhǎng)度和延遲計(jì)時(shí)器可以被動(dòng)態(tài)地調(diào)整為滿足音頻通信單元的需求，這也在本發(fā)明的范圍之內(nèi)。同樣，使用‘N’為8的緩沖器長(zhǎng)度的優(yōu)選實(shí)施例和5幀的延遲計(jì)時(shí)器只是出于解釋性的目的。但是，應(yīng)當(dāng)注意，緩沖器長(zhǎng)度‘N’應(yīng)當(dāng)總是確定為N≥SL。
除了用作其自身VAD之外，在圖2的方法步驟中執(zhí)行的能量加速率測(cè)量可以用于驗(yàn)證其它參數(shù)的初始化，這也在本發(fā)明的考慮范圍之內(nèi)。例如，頻譜提取方案根據(jù)語(yǔ)音的首十幀(典型地為100毫秒)來要求噪聲的初始估值。甚至在平穩(wěn)噪聲中，可能發(fā)生若干事件而致使初始估值無效。這種事件的示例包括(a)信號(hào)的上斜由于各種可能的原因，在估值時(shí)，記錄的開始可能在該周期內(nèi)‘上斜’至滿值。完全上斜的原因包括數(shù)字系統(tǒng)中的緩沖器填充，模擬系統(tǒng)中的容量或帶頭連接。這些事件的影響使該估值無效。因此，能量加速率測(cè)量可以用于檢測(cè)這種上斜并防止出現(xiàn)這種失誤。
(b)初始信號(hào)中的毛刺普通‘毛刺’伴隨著用戶無線單元上的一鍵通(PTT)按鈕的完整動(dòng)作而發(fā)生，其中，電接觸極少發(fā)生在按鈕碰擊開關(guān)背部之前。如上所述，當(dāng)發(fā)生這種事件時(shí)，能量加速率測(cè)量可以用于掛起估值處理，如圖2的步驟225所示。
(c)初始信號(hào)中的語(yǔ)音另一通常發(fā)生的事件是，具體地說對(duì)于PTT系統(tǒng)，用戶在按下PTT按鈕時(shí)立即開始講話。通過這種方式，在語(yǔ)音開始之后進(jìn)行電接觸。能量加速率測(cè)量可以識(shí)別這一點(diǎn)且掛起基于噪聲的初始化，如圖2的步驟225所示，或者強(qiáng)迫使用故障估值。
總之，已對(duì)包括具有話音活動(dòng)檢測(cè)機(jī)制的音頻處理單元的通信單元進(jìn)行描述。話音活動(dòng)檢測(cè)機(jī)制提供輸入至通信單元的信號(hào)輸入的能量加速率的指示且根據(jù)所述指示來確定所述輸入信號(hào)是語(yǔ)音還是噪聲。
此外，已對(duì)檢測(cè)輸入到通信單元中的語(yǔ)音信號(hào)的方法進(jìn)行描述。該方法包括以下步驟指示輸入到通信單元的輸入信號(hào)的加速率；以及根據(jù)所述指示步驟來確定所述輸入信號(hào)是語(yǔ)音還是噪聲。
此外，已對(duì)判決輸入到通信單元中的信號(hào)是語(yǔ)音還是噪聲的方法進(jìn)行描述。該方法包括以下步驟根據(jù)能量加速率判決所述輸入信號(hào)是語(yǔ)音還是噪聲，例如使用若干輸入信號(hào)的幀平均或滾動(dòng)平均。
因此，應(yīng)當(dāng)理解，如上所述的用于噪聲環(huán)境的基于能量加速率的話音活動(dòng)檢測(cè)器和驗(yàn)證器提供了噪聲魯棒性和快速響應(yīng)的優(yōu)點(diǎn)。由于優(yōu)選實(shí)施例使用依賴于能量加速率的測(cè)量，而不是絕對(duì)的測(cè)量，所以在此所描述的發(fā)明構(gòu)思可以應(yīng)用于任何輸入電平的語(yǔ)音。
雖然上面已對(duì)本發(fā)明的實(shí)施例的特定和優(yōu)選實(shí)現(xiàn)進(jìn)行了描述，但是應(yīng)當(dāng)清楚，本領(lǐng)域的技術(shù)人員易于應(yīng)用落入本發(fā)明的范圍之內(nèi)的這種發(fā)明構(gòu)思的變化和修改。
因此，已對(duì)用于噪聲環(huán)境的經(jīng)改善的話音活動(dòng)檢測(cè)器和驗(yàn)證器進(jìn)行描述，其中，基本上消除了與現(xiàn)有技術(shù)布置相關(guān)聯(lián)的上述缺點(diǎn)。
權(quán)利要求
1.一種通信單元(100)，其包含具有話音活動(dòng)檢測(cè)機(jī)制(130，135)的音頻處理單元(109)，所述通信單元(100)的特征在于，所述話音活動(dòng)檢測(cè)機(jī)制(130，135)測(cè)量輸入到所述通信單元(100)中的信號(hào)的能量加速率，并根據(jù)所述測(cè)量確定所述輸入信號(hào)是語(yǔ)音還是噪聲。
2.如權(quán)利要求1所述的通信單元(100)，其中，所述話音活動(dòng)檢測(cè)機(jī)制包括話音活動(dòng)檢測(cè)器功能塊(130)，其對(duì)輸入到所述話音活動(dòng)檢測(cè)機(jī)制(130，135)中的信號(hào)執(zhí)行話音的逐幀檢測(cè)。
3.如權(quán)利要求2所述的通信單元(100)，其中，所述逐幀檢測(cè)包括針對(duì)下述的頻率范圍中的一個(gè)或多個(gè)對(duì)輸入到所述話音活動(dòng)檢測(cè)機(jī)制(130，135)中的信號(hào)執(zhí)行能量加速率測(cè)量(i)整個(gè)頻譜(ii)頻譜子頻段；以及(iii)頻譜方差。
4.如權(quán)利要求3所述的通信單元(100)，其中，所述話音活動(dòng)檢測(cè)機(jī)制包括話音活動(dòng)判決功能塊(135)，其可操作地連接至所述話音活動(dòng)檢測(cè)器功能塊(130)，以根據(jù)一個(gè)或多個(gè)所述測(cè)量的緩沖操作來判決所述輸入信號(hào)是否是語(yǔ)音。
5.如權(quán)利要求4所述的通信單元(100)，其中，所述話音活動(dòng)判決功能塊(135)使用多個(gè)所述輸入信號(hào)的幀平均或滾動(dòng)平均來判決輸入信號(hào)是否是語(yǔ)音。
6.如權(quán)利要求2至5中的任一項(xiàng)所述的通信單元(100)，其中，如果所述能量加速率測(cè)量得出大于能量加速率門限的能量加速率值，則認(rèn)為輸入幀是語(yǔ)音幀(265)。
7.如權(quán)利要求6所述的通信單元(100)，其中，確定輸入幀是語(yǔ)音幀的判決(265)的應(yīng)用可追溯至輸入信號(hào)的緩沖器中的前面的幀。
8.如權(quán)利要求6或權(quán)利要求7所述的通信單元(100)，其中，如果對(duì)于多個(gè)連續(xù)幀，所述能量加速率測(cè)量得出大于能量加速率門限的能量加速率值，則認(rèn)為輸入幀是語(yǔ)音幀(370)。
9.當(dāng)依賴于權(quán)利要求3時(shí)，如權(quán)利要求3至8中的任一項(xiàng)所述的通信單元(100)，其中，如果選擇輸入信號(hào)頻譜的子區(qū)，則該選擇是基于子區(qū)最有可能包含話音信號(hào)的基本基音而作出的。
10.如前面的任一項(xiàng)權(quán)利要求所述的通信單元(100)，其中，所述話音活動(dòng)檢測(cè)機(jī)制(130，135)使用話音能量的相關(guān)特征的加速率來驗(yàn)證其它話音或噪聲的相關(guān)量度的參數(shù)初始化，例如頻譜提取方案。
11.一種檢測(cè)輸入至通信單元中的語(yǔ)音信號(hào)的方法，其特征在于，包含以下步驟測(cè)量輸入至所述通信單元中的輸入信號(hào)的能量中的加速率或變化；以及根據(jù)所述測(cè)量步驟來確定(315，330，350)所述輸入信號(hào)是語(yǔ)音(370)還是噪聲(375)。
12.如權(quán)利要求11所述的語(yǔ)音信號(hào)檢測(cè)方法，其特征在于，進(jìn)一步包含以下步驟對(duì)輸入至所述通信單元中的信號(hào)執(zhí)行話音的逐幀檢測(cè)。
13.如權(quán)利要求12所述的語(yǔ)音信號(hào)檢測(cè)方法，其中，所述逐幀檢測(cè)包括以下步驟針對(duì)一個(gè)或多個(gè)下面的頻率范圍，對(duì)所述輸入信號(hào)執(zhí)行能量加速率測(cè)量(i)整個(gè)頻譜(ii)頻譜子頻段；以及(iii)頻譜方差。
14.一種判決輸入至通信單元中的信號(hào)是語(yǔ)音還是噪聲的方法，優(yōu)選地根據(jù)前面權(quán)利要求11至13中的任一項(xiàng)權(quán)利要求，該方法的特征在于，進(jìn)一步包含以下步驟根據(jù)所述輸入信號(hào)的能量測(cè)量中的能量加速率或變化來判決(315，330，350)所述輸入信號(hào)是語(yǔ)音(370)還是噪聲(375)，例如使用多個(gè)輸入信號(hào)的幀平均或滾動(dòng)平均。
15.如權(quán)利要求14所述的判決輸入至通信單元中的信號(hào)是語(yǔ)音還是噪聲的方法，其中，所述判決步驟包括如果所述能量加速率測(cè)量得出能量加速率值大于能量加速率門限，則確定輸入幀是語(yǔ)音幀(265)；以及把所述確定可追溯地應(yīng)用至輸入信號(hào)的緩沖器中的前面的幀。
全文摘要
一種通信單元(100)，包括帶有話音活動(dòng)檢測(cè)機(jī)制(130，135)的音頻處理單元(109)。話音活動(dòng)檢測(cè)機(jī)制(130，135)測(cè)量輸入至通信單元(100)中的信號(hào)的能量加速率，并根據(jù)所述測(cè)量確定所述輸入信號(hào)是語(yǔ)音還是噪聲。還描述了一種檢測(cè)話音的方法和一種判決輸入信號(hào)是語(yǔ)音還是噪聲的方法。使用基于能量加速率的話音活動(dòng)檢測(cè)器和驗(yàn)證器，特別對(duì)于噪聲環(huán)境，提供了噪聲魯棒性、快速響應(yīng)和輸入語(yǔ)音電平獨(dú)立的優(yōu)點(diǎn)。
文檔編號(hào)G10L25/78GK1623186SQ03802682
公開日2005年6月1日申請(qǐng)日期2003年1月10日優(yōu)先權(quán)日2002年1月24日
發(fā)明者道格拉斯·拉爾夫·伊利, 霍利·路易斯·凱萊赫, 戴維·約翰·本杰明·皮爾斯申請(qǐng)人:摩托羅拉公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：道格拉斯.拉爾夫.伊利;霍利.路易斯.凱萊赫;戴維.約翰.本杰明.皮爾斯
技術(shù)所有人：摩托羅拉公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)字環(huán)境噪聲檢測(cè)器相關(guān)技術(shù)

噪聲檢測(cè)器相關(guān)技術(shù)

噪音檢測(cè)器相關(guān)技術(shù)

環(huán)境檢測(cè)器相關(guān)技術(shù)

音樂噪聲相關(guān)技術(shù)

qq語(yǔ)音噪聲較大相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于噪聲環(huán)境的話音活動(dòng)檢測(cè)器和驗(yàn)證器的制作方法