相關(guān)申請的交叉引用
本申請要求2014年9月26日提交的美國臨時(shí)申請序列號62/056,045和2015年9月25日提交的美國實(shí)用申請序列號14/866,824的優(yōu)先權(quán),二者標(biāo)題均為“neuralnetworkvoiceactivitydetectionemployingrunningrangenormalization”,其全部內(nèi)容通過引用并入本文。
本公開總體涉及用于處理音頻信號的技術(shù),包括用于隔離語音數(shù)據(jù)、從音頻信號中去除噪聲或者在輸出音頻信號之前以其它方式增強(qiáng)音頻信號的技術(shù)。更具體地,本公開涉及語音活動(dòng)檢測(vad),且更具體地,涉及用于歸一化來源于音頻信號的一個(gè)或多個(gè)語音活動(dòng)檢測特征或特征參數(shù)的方法。還公開了用于處理音頻信號的設(shè)備和系統(tǒng)。
背景技術(shù):
語音活動(dòng)檢測器長期以來一直用于增強(qiáng)音頻信號中的話語并且用于包括話語識(shí)別或特定揚(yáng)聲器的語音識(shí)別的各種其它目的。
傳統(tǒng)上,語音活動(dòng)檢測器依賴于模糊規(guī)則或試探法并結(jié)合諸如能級和過零率的特征來確定音頻信號是否包括話語。在一些情況下,由傳統(tǒng)語音活動(dòng)檢測器利用的閾值取決于音頻信號的信噪比(snr),使得難以選擇合適的閾值。此外,雖然傳統(tǒng)語音活動(dòng)檢測器在音頻信號具有高snr的條件下工作良好,但是當(dāng)音頻信號的snr低時(shí),它們是不太可靠的。
通過使用諸如神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)技術(shù)已經(jīng)改進(jìn)了一些語音活動(dòng)檢測器,這些技術(shù)通常組合幾個(gè)中等的語音活動(dòng)檢測(vad)特征以提供更準(zhǔn)確的語音活動(dòng)估計(jì)。(這里使用的術(shù)語“神經(jīng)網(wǎng)絡(luò)”也可以指其它機(jī)器學(xué)習(xí)技術(shù),諸如支持向量機(jī)、決策樹、邏輯回歸、統(tǒng)計(jì)分類器等)。雖然這些改進(jìn)的語音活動(dòng)檢測器對于用于訓(xùn)練它們的音頻信號來說工作良好,但是當(dāng)應(yīng)用于從不同環(huán)境(包括不同類型的噪聲,或包括與用于訓(xùn)練語音活動(dòng)檢測器的音頻信號不同的混響量)獲得的音頻信號時(shí),其通常不太可靠。
已經(jīng)使用稱為“特征歸一化”的技術(shù)來改善魯棒性,具有該魯棒性的語音活動(dòng)檢測器可以用于評估具有各種不同特性的音頻信號。在均方差歸一化(mvn)中,例如,特征向量的每個(gè)元素的均值和方差分別被歸一化為零和一。除了改善對不同數(shù)據(jù)集的魯棒性之外,特征歸一化也隱含地提供關(guān)于當(dāng)前時(shí)間幀如何與先前幀相比較的信息。例如,如果給定的隔離數(shù)據(jù)幀中的非歸一化特征具有為0.1的數(shù)值,則可能提供關(guān)于該幀是否對應(yīng)于話語的很少信息,特別是如果我們不知道snr。然而,如果該特征已經(jīng)基于記錄的長期統(tǒng)計(jì)被歸一化,則其提供了關(guān)于該幀如何與總體信號相比較的附加背景。
然而,諸如mvn的傳統(tǒng)特征歸一化技術(shù)通常對對應(yīng)于話語的音頻信號的百分比非常敏感(即人在說話的時(shí)間的百分比)。如果運(yùn)行期間的在線話語數(shù)據(jù)與用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)具有明顯不同的話語百分比,則vad特征的平均值將相應(yīng)地移位,產(chǎn)生誤導(dǎo)結(jié)果。因此,在語音活動(dòng)檢測和特征歸一化中尋求改進(jìn)。
技術(shù)實(shí)現(xiàn)要素:
在一些實(shí)施例中,本發(fā)明的一個(gè)方面的特征在于從音頻信號獲得歸一化語音活動(dòng)檢測特征的方法。該方法在計(jì)算系統(tǒng)中執(zhí)行并且包括以下步驟:將音頻信號劃分成時(shí)間幀的序列;針對每個(gè)時(shí)間幀計(jì)算音頻信號的一個(gè)或多個(gè)語音活動(dòng)檢測特征;以及針對每個(gè)時(shí)間幀計(jì)算音頻信號的一個(gè)或多個(gè)語音活動(dòng)檢測特征的最小值和最大值的運(yùn)行估計(jì)。該方法進(jìn)一步包括針對每個(gè)時(shí)間幀通過比較音頻信號的一個(gè)或多個(gè)語音活動(dòng)檢測特征的最小值和最大值的運(yùn)行估計(jì)來計(jì)算一個(gè)或多個(gè)語音活動(dòng)檢測特征的輸入范圍;以及針對每個(gè)時(shí)間幀將音頻信號的一個(gè)或多個(gè)語音活動(dòng)檢測特征從輸入范圍映射到一個(gè)或多個(gè)期望目標(biāo)范圍,以獲得一個(gè)或多個(gè)歸一化語音活動(dòng)檢測特征。
在一些實(shí)施例中,指示口語語音數(shù)據(jù)的音頻信號的一個(gè)或多個(gè)特征包括全頻帶能量、低頻帶能量、在主麥克風(fēng)和參考麥克風(fēng)中測量的能量的比率、方差值、頻譜質(zhì)心比、頻譜方差、頻譜差異的方差、頻譜平坦度和過零率中的一個(gè)或多個(gè)。
在一些實(shí)施例中,一個(gè)或多個(gè)歸一化語音活動(dòng)檢測特征被用于產(chǎn)生口語語音數(shù)據(jù)的可能性的估計(jì)。
在一些實(shí)施例中,該方法進(jìn)一步包括將一個(gè)或多個(gè)歸一化語音活動(dòng)檢測特征應(yīng)用于機(jī)器學(xué)習(xí)算法以產(chǎn)生指示二進(jìn)制話語/非話語命名和話語活動(dòng)的可能性中的至少一個(gè)的語音活動(dòng)檢測估計(jì)。
在一些實(shí)施例中,該方法進(jìn)一步包括使用語音活動(dòng)檢測估計(jì)來控制一個(gè)或多個(gè)自適應(yīng)濾波器的自適應(yīng)速率。
在一些實(shí)施例中,時(shí)間幀在時(shí)間幀的序列內(nèi)是交疊的。
在一些實(shí)施例中,該方法進(jìn)一步包括后處理一個(gè)或多個(gè)歸一化語音活動(dòng)檢測特征,包括平滑化、量化和閾值化中的至少一個(gè)。
在一些實(shí)施例中,一個(gè)或多個(gè)歸一化語音活動(dòng)檢測特征被用于通過噪聲降低、自適應(yīng)濾波、功率水平差計(jì)算和非話語幀的衰減中的一個(gè)或多個(gè)來增強(qiáng)音頻信號。
在一些實(shí)施例中,該方法進(jìn)一步包括產(chǎn)生包括基本上不含非語音數(shù)據(jù)的口語語音數(shù)據(jù)的凈化音頻信號。
在一些實(shí)施例中,一個(gè)或多個(gè)歸一化語音活動(dòng)檢測特征被用于訓(xùn)練機(jī)器學(xué)習(xí)算法以檢測話語。
在一些實(shí)施例中,計(jì)算一個(gè)或多個(gè)語音活動(dòng)檢測特征的最小值和最大值的運(yùn)行估計(jì)包括對一個(gè)或多個(gè)語音活動(dòng)檢測特征應(yīng)用不對稱指數(shù)平均。在一些實(shí)施例中,該方法進(jìn)一步包括將平滑系數(shù)設(shè)置為對應(yīng)于所選擇的時(shí)間常數(shù)以產(chǎn)生平滑的最小值估計(jì)和平滑的最大值估計(jì)中的一個(gè)估計(jì)的逐漸變化和快速變化中的一種變化。在一些實(shí)施例中,平滑系數(shù)被選擇為使得最大值估計(jì)的連續(xù)更新快速響應(yīng)于較高的語音活動(dòng)檢測特征值,并且響應(yīng)于較低的語音活動(dòng)檢測特征值而更慢地衰減。在一些實(shí)施例中,平滑系數(shù)被選擇為使得最小值估計(jì)的連續(xù)更新快速響應(yīng)于較低的語音活動(dòng)檢測特征值,并且響應(yīng)于較高的語音活動(dòng)檢測特征值而緩慢增加。
在一些實(shí)施例中,根據(jù)以下公式執(zhí)行映射:歸一化特征值=2×(新特征值-特征下限)/(特征上限-特征下限)-1。
在一些實(shí)施例中,根據(jù)以下公式執(zhí)行映射:歸一化特征值=(新特征值-特征下限)/(特征上限-特征下限)。
在一些實(shí)施例中,通過從最大值的運(yùn)行估計(jì)中減去最小值的運(yùn)行估計(jì)來執(zhí)行計(jì)算一個(gè)或多個(gè)語音活動(dòng)檢測特征的輸入范圍。
在一些實(shí)施例中,本發(fā)明的另一方面的特征在于一種將語音活動(dòng)檢測特征歸一化的方法。該方法包括以下步驟:將音頻信號分割成時(shí)間幀的序列;計(jì)算用于語音活動(dòng)檢測特征的運(yùn)行最小值估計(jì)和運(yùn)行最大值估計(jì);通過比較運(yùn)行最小值估計(jì)和運(yùn)行最大值估計(jì)來計(jì)算輸入范圍;以及通過將語音活動(dòng)檢測特征從輸入范圍映射到一個(gè)或多個(gè)期望目標(biāo)范圍來將語音活動(dòng)檢測特征歸一化。
在一些實(shí)施例中,計(jì)算運(yùn)行最小值估計(jì)和運(yùn)行最大值估計(jì)包括選擇平滑系數(shù)以建立用于運(yùn)行最小值估計(jì)和運(yùn)行最大值估計(jì)中的至少一個(gè)的定向偏置變化率。
在一些實(shí)施例中,平滑系數(shù)被選擇為使得運(yùn)行最大值估計(jì)更快地響應(yīng)較高的最大值并且更慢地響應(yīng)較低的最大值。
在一些實(shí)施例中,平滑系數(shù)被選擇為使得運(yùn)行最小值估計(jì)更快地響應(yīng)較低的最小值并且更慢地響應(yīng)較高的最小值。
在一些實(shí)施例中,本發(fā)明的另一方面的特征在于一種存儲(chǔ)用于執(zhí)行用于識(shí)別音頻信號中的語音數(shù)據(jù)的方法的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)包括:計(jì)算機(jī)存儲(chǔ)介質(zhì);以及存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)介質(zhì)上的計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令在由計(jì)算系統(tǒng)執(zhí)行時(shí)被配置為使計(jì)算系統(tǒng):計(jì)算多個(gè)語音活動(dòng)檢測特征;計(jì)算語音活動(dòng)檢測特征的最小值和最大值的運(yùn)行估計(jì);通過比較最小值和最大值的運(yùn)行估計(jì)來計(jì)算語音活動(dòng)檢測特征的輸入范圍;以及將語音活動(dòng)檢測特征從輸入范圍映射到一個(gè)或多個(gè)期望目標(biāo)范圍以獲得歸一化的語音活動(dòng)檢測特征。
附圖說明
通過在結(jié)合附圖進(jìn)行考慮時(shí)參考詳細(xì)描述,可以獲得對本發(fā)明的更完整的理解。
圖1示出根據(jù)一個(gè)實(shí)施例的利用運(yùn)行范圍歸一化的語音活動(dòng)檢測方法;
圖2示出根據(jù)一個(gè)實(shí)施例的利用運(yùn)行范圍歸一化來歸一化vad特征的方法的處理流程;
圖3示出典型的非歸一化vad特征的時(shí)間變化,以及相應(yīng)的下限值和上限值和所得的歸一化vad特征;
圖4示出了根據(jù)一個(gè)實(shí)施例的用于訓(xùn)練語音活動(dòng)檢測器的方法;以及
圖5示出根據(jù)一個(gè)實(shí)施例的用于測試語音活動(dòng)檢測器的方法的處理流程。
圖6示出用于分析數(shù)字音頻的計(jì)算機(jī)架構(gòu)。
具體實(shí)施方式
以下描述僅是本發(fā)明的示例性實(shí)施例,并不意圖限制本發(fā)明的范圍、適用性或配置。相反,以下描述旨在提供用于實(shí)現(xiàn)本發(fā)明的各種實(shí)施例的方便的圖示。顯而易見的是,在不脫離本文所闡述的本發(fā)明的范圍的情況下,可以在這些實(shí)施例中描述的元件的功能和布置中進(jìn)行各種改變。因此,這里的詳細(xì)描述僅是為了說明的目的而不是限制。
說明書中對“一個(gè)實(shí)施例”或“實(shí)施例”的引用旨在表示結(jié)合實(shí)施例描述的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個(gè)實(shí)施例中。在說明書中的各個(gè)地方出現(xiàn)的短語“在一個(gè)實(shí)施例中”或“在實(shí)施例中”不一定都指代相同的實(shí)施例。
本發(fā)明擴(kuò)展到用于分析數(shù)字?jǐn)?shù)據(jù)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。被分析的數(shù)字?jǐn)?shù)據(jù)可以是例如數(shù)字音頻文件、數(shù)字視頻文件、實(shí)時(shí)音頻流和實(shí)時(shí)視頻流等的形式。本發(fā)明識(shí)別數(shù)字?jǐn)?shù)據(jù)源中的模式,并使用所識(shí)別的模式來分析、分類和過濾數(shù)字?jǐn)?shù)據(jù),例如隔離或增強(qiáng)語音數(shù)據(jù)。本發(fā)明的具體實(shí)施例涉及數(shù)字音頻。實(shí)施例被設(shè)計(jì)為執(zhí)行與任何音頻源的非破壞性音頻隔離和分離。
在一個(gè)方面,公開了一種用于連續(xù)歸一化一個(gè)或多個(gè)特征的方法,所述特征被用于確定音頻信號(例如,由諸如電話、移動(dòng)電話、音頻記錄設(shè)備等的音頻裝置的麥克風(fēng)等接收的音頻信號)包括對應(yīng)于個(gè)人的語音的音頻的可能性,這在本領(lǐng)域中被稱為“語音活動(dòng)檢測(vad)”。這種方法包括在此稱為“運(yùn)行范圍歸一化”的過程,其包括跟蹤和可選地連續(xù)修改可能描述個(gè)人語音的各個(gè)方面的音頻信號的特征的參數(shù)。非限制地,運(yùn)行范圍歸一化可以包括計(jì)算音頻信號的一個(gè)或多個(gè)特征的最小值和最大值的運(yùn)行估計(jì)(即分別為特征下限估計(jì)和特征上限估計(jì)),其可以指示構(gòu)成至少一部分音頻信號的個(gè)人語音。由于感興趣的特征指示音頻信號是否包括個(gè)人語音,所以這些特征可以被稱為“vad特征”。通過跟蹤和修改特定vad特征的下限估計(jì)和上限估計(jì),關(guān)于音頻信號的某些特征是否指示口語語音的存在的置信度可以被最大化。
vad特征的一些非限制性示例包括全頻帶能量、包括低頻帶能量(例如,<1khz)的各種頻帶中的能量、在主麥克風(fēng)和參考麥克風(fēng)中測量的能量的比率、方差值、頻譜質(zhì)心比、頻譜方差、頻譜差異的方差、頻譜平坦度和過零率。
參考圖1,示出了vad方法100的實(shí)施例。vad方法可以包括獲得可以被劃分成(可選地重疊的)時(shí)間幀的序列的一個(gè)或多個(gè)音頻信號(“有噪聲的話語”)(步驟102)。在一些實(shí)施例中,在確定音頻信號是否包括語音活動(dòng)之前,可以對音頻信號進(jìn)行一些增強(qiáng)處理。在每個(gè)時(shí)間幀處,可以評估每個(gè)音頻信號以確定或計(jì)算一個(gè)或多個(gè)vad特征(在“計(jì)算vad特征”處)(步驟104)。使用來自特定時(shí)間幀的(多個(gè))vad特征,可以在這些vad特征上執(zhí)行運(yùn)行范圍歸一化過程(在“運(yùn)行范圍歸一化”處)(步驟106)。該運(yùn)行范圍歸一化過程可以包括計(jì)算該時(shí)間幀的特征下限估計(jì)和特征上限估計(jì)。通過映射到特征下限估計(jì)和特征上限估計(jì)之間的范圍,可以在多個(gè)時(shí)間幀上或在時(shí)間上對相應(yīng)vad特征的參數(shù)進(jìn)行歸一化(“歸一化vad特征”)(步驟108)。
然后可以(例如,由神經(jīng)網(wǎng)絡(luò)等)使用歸一化的vad特征來確定音頻信號是否包括語音信號。可以重復(fù)該過程以便在處理音頻信號時(shí)連續(xù)更新語音活動(dòng)檢測器。
在給定歸一化vad特征的序列的情況下,神經(jīng)網(wǎng)絡(luò)可以產(chǎn)生指示二進(jìn)制話語/非話語決策的vad估計(jì)、話語活動(dòng)的可能性或可以可選地經(jīng)歷閾值以產(chǎn)生二進(jìn)制話語/非話語決策的實(shí)數(shù)(步驟110)。由神經(jīng)網(wǎng)絡(luò)產(chǎn)生的vad估計(jì)可以經(jīng)歷諸如量化、平滑化、閾值化、“孤立去除”等的進(jìn)一步處理,從而產(chǎn)生可以用于控制音頻信號的進(jìn)一步處理的后處理的vad估計(jì)(步驟112)。例如,如果在音頻信號或一部分音頻信號中沒有檢測到語音活動(dòng),則音頻信號中的其它音頻源(例如,噪聲、音樂等)可以被從音頻信號的相關(guān)部分移除,導(dǎo)致靜音音頻信號。vad估計(jì)(具有可選的后處理)也可以用于控制自適應(yīng)濾波器的自適應(yīng)速率或控制其它話語增強(qiáng)參數(shù)。
音頻信號可以用麥克風(fēng)、用接收機(jī)、作為電信號或以任何其它合適的方式獲得。音頻信號可以被發(fā)送到計(jì)算機(jī)處理器、微控制器或任何其它合適的處理元件,當(dāng)在適當(dāng)編程的控制下操作時(shí),其可以根據(jù)本文提供的公開內(nèi)容來分析和/或處理音頻信號。
作為非限制性實(shí)施例,音頻信號可以由諸如電話、移動(dòng)電話、音頻記錄設(shè)備等的音頻裝置的一個(gè)或多個(gè)麥克風(fēng)接收。音頻信號可以被轉(zhuǎn)換成數(shù)字音頻信號,并且然后被發(fā)送到音頻裝置的處理元件。處理元件可以將根據(jù)本公開的vad方法應(yīng)用于數(shù)字音頻信號,并且在一些實(shí)施例中,可以對數(shù)字音頻信號執(zhí)行其它處理,以進(jìn)一步凈化該數(shù)字音頻信號或從其中消除噪聲。然后處理元件可以存儲(chǔ)凈化的音頻信號,發(fā)送凈化的音頻信號和/或輸出凈化的音頻信號。
在另一個(gè)非限制性實(shí)施例中,數(shù)字音頻信號可以由諸如電話、移動(dòng)電話、音頻記錄設(shè)備、音頻回放設(shè)備等的音頻裝置接收。數(shù)字音頻信號可以被傳送到音頻裝置的處理元件,然后該處理元件可以對數(shù)字音頻信號執(zhí)行實(shí)現(xiàn)根據(jù)本公開的vad方法的程序。另外,處理元件可以執(zhí)行進(jìn)一步提高數(shù)字音頻信號的清晰度的一個(gè)或多個(gè)其它處理。然后,處理元件可以存儲(chǔ)、發(fā)送和/或可聽地輸出凈化的數(shù)字音頻信號。
參考圖2,運(yùn)行范圍歸一化過程200被用于將一組非歸一化的vad特征轉(zhuǎn)換為一組歸一化的vad特征。在每個(gè)時(shí)間幀內(nèi),針對每個(gè)特征計(jì)算更新的下限估計(jì)和上限估計(jì)(步驟202,204)。然后,每個(gè)特征被映射到基于下限估計(jì)和上限估計(jì)的范圍(步驟206),從而產(chǎn)生一組歸一化的vad特征(步驟208)。
特征下限估計(jì)和特征上限估計(jì)可以被初始化為零??商娲?,為了在音頻信號的前幾秒期間的最佳性能(例如,利用實(shí)時(shí)獲得的音頻信號),特征下限估計(jì)和特征上限估計(jì)可以被初始化為(例如,在工廠等)預(yù)先確定的典型值。特征下限估計(jì)和特征上限估計(jì)(例如,在電話呼叫過程中,隨著音頻信號另外被接收和處理以檢測語音和/或凈化音頻信號等)的進(jìn)一步計(jì)算可以包括應(yīng)用非對稱指數(shù)平均以在多個(gè)時(shí)間幀內(nèi)分別跟蹤平滑的特征下限估計(jì)和平滑的特征上限估計(jì)??梢允褂酶櫹孪藓?或上限估計(jì)的其它方法來代替非對稱指數(shù)平均。例如,最小統(tǒng)計(jì)算法在有限窗口內(nèi)跟蹤有噪聲的話語功率的最小值(可選地作為頻率的函數(shù))。
在特征下限估計(jì)的背景中,不對稱指數(shù)平均的使用可以包括將來自音頻信號的新vad特征的值與特征下限估計(jì)進(jìn)行比較,并且如果新vad特征的值超過特征下限估計(jì),則逐漸增加特征下限估計(jì)??梢酝ㄟ^將平滑系數(shù)設(shè)置為對應(yīng)于諸如五秒(5秒)或更長時(shí)間的慢時(shí)間常數(shù)的值來實(shí)現(xiàn)特征下限估計(jì)的逐漸增加。在替代方案中,如果來自音頻信號的新vad特征的值小于特征下限估計(jì),則可以快速減小特征下限估計(jì)。可以通過將平滑系數(shù)設(shè)置為對應(yīng)于諸如一秒(1秒)或更短時(shí)間的快時(shí)間常數(shù)的值來實(shí)現(xiàn)特征下限估計(jì)的快速減少。下面的方程表示可以用于對特征下限估計(jì)應(yīng)用不對稱指數(shù)平均的算法:
featurefloornew=cfloor×featurefloorprevious+(1-cfloor)×newfeaturevalue其中cfloor是當(dāng)前下限平滑系數(shù),featurefloorprevious是先前平滑的特征下限估計(jì),newfeaturevalue是最近的非歸一化vad特征,而featurefloornew是新的平滑的特征下限估計(jì)。
在特征上限估計(jì)的背景中,不對稱指數(shù)平均的使用可以包括將來自音頻信號的新vad特征的值與特征上限估計(jì)進(jìn)行比較。如果新vad特征的值小于特征上限估計(jì),則可以逐漸減少特征上限估計(jì)??梢酝ㄟ^將平滑系數(shù)設(shè)置為對應(yīng)于諸如五秒(5秒)或更長時(shí)間的慢時(shí)間常數(shù)的值來實(shí)現(xiàn)特征下限估計(jì)的逐漸減小。相反,如果新vad特征大于特征上限估計(jì),則可以快速增加特征上限估計(jì)??梢酝ㄟ^將平滑系數(shù)設(shè)置為對應(yīng)于諸如一秒(1秒)或更短時(shí)間的快時(shí)間常數(shù)的值來實(shí)現(xiàn)特征上限估計(jì)的快速增加。在具體實(shí)施例中,下面的算法可以用于對特征上限估計(jì)應(yīng)用不對稱指數(shù)平均:
featureceilnew=cceil*featureceilprevious+(1-cceil)*newfeaturevalue。
其中cceil是當(dāng)前上限平滑系數(shù),featureceilprevious是先前平滑的特征上限估計(jì),newfeaturevalue是最近的非歸一化vad特征,并且featureceilnew是新的平滑特征上限估計(jì)。
在圖3的頂部曲線中示出了典型的一系列非歸一化vad特征值和相應(yīng)的下限和上限值。實(shí)線描繪了非歸一化的vad特征值,它們隨著幀而不同;虛線描繪相應(yīng)的上限值;并且點(diǎn)劃線描繪相應(yīng)的下限值。特征上限估計(jì)快速響應(yīng)新的峰值,但是響應(yīng)于低特征值而緩慢衰減。類似地,特征下限估計(jì)快速響應(yīng)小特征值,但響應(yīng)于大值而緩慢增加。
通常使用大約0.25秒的時(shí)間常數(shù)的快速系數(shù)允許特征下限值和上限值在最小和最大特征值的運(yùn)行估計(jì)上快速收斂,而慢系數(shù)可以使用比實(shí)際用于諸如mvn的歸一化技術(shù)的時(shí)間常數(shù)更長的時(shí)間常數(shù)(諸如18秒)。慢時(shí)間常數(shù)使得運(yùn)行范圍歸一化對于話語的百分比不太敏感,因?yàn)樘卣魃舷?featureceil)值將傾向于記住長時(shí)間的沉默期間的最大特征值。當(dāng)講話者再次開始講話時(shí),快時(shí)間常數(shù)將幫助特征上限(featureceil)快速接近新的最大特征值。此外,運(yùn)行范圍歸一化可以對最小特征值進(jìn)行顯性估計(jì),其對應(yīng)于噪聲下限。由于vad閾值傾向于相對接近于噪聲下限,所以這些顯性最小特征估計(jì)被視為比通過跟蹤平均值和方差獲得的隱性估計(jì)值更有用。在一些應(yīng)用中,對于下限和上限估計(jì)使用不同的一對時(shí)間常數(shù)可能是有利的,例如,比下限估計(jì)更快地適應(yīng)上限估計(jì),反之亦然。
一旦已經(jīng)針對特定的vad特征計(jì)算了特征下限估計(jì)和特征上限估計(jì),則可以通過將特征下限估計(jì)和特征上限估計(jì)之間的范圍映射到期望目標(biāo)范圍來將vad特征歸一化。期望目標(biāo)范圍可以可選地從-1延伸到+1。在具體實(shí)施例中,可以使用以下公式來執(zhí)行該映射:
所得到的歸一化特征值在圖3的底部曲線圖中示出,并且對應(yīng)于圖3的頂部曲線圖中的非歸一化特征值。在該示例中,歸一化特征值傾向于大約占據(jù)從-1到+1的期望目標(biāo)范圍。這些歸一化特征值通常對變化的環(huán)境條件更加魯棒,并且對訓(xùn)練和應(yīng)用vad神經(jīng)網(wǎng)絡(luò)更有用。
類似地,如果期望目標(biāo)范圍是從0到+1,則可以使用以下公式來執(zhí)行該映射:
也可以使用各種非線性映射。
由于平滑的下限和上限估計(jì)的延遲響應(yīng),常見的是非歸一化vad特征值偶爾會(huì)落在當(dāng)前下限和上限估計(jì)之間的范圍之外,導(dǎo)致歸一化vad特征值落在期望目標(biāo)范圍之外。這對于訓(xùn)練和應(yīng)用神經(jīng)網(wǎng)絡(luò)的意圖來說通常不是問題,但是如果需要,可以將大于目標(biāo)范圍的最大值的歸一化特征值設(shè)置為目標(biāo)范圍的最大值;同樣地,可以將小于目標(biāo)范圍的最小值的歸一化特征設(shè)定為目標(biāo)范圍的最小值。
在另一方面,諸如上述公開的vad方法可以用于訓(xùn)練語音活動(dòng)檢測器。這種訓(xùn)練方法可以包括使用包括噪聲信號和干凈話語信號的多個(gè)訓(xùn)練信號。噪聲和干凈話語信號可以以各種信噪比混合以產(chǎn)生有噪聲的話語信號。
語音活動(dòng)檢測器的訓(xùn)練可以包括處理有噪聲的話語信號以從其確定或計(jì)算多個(gè)vad特征。諸如本文先前公開的運(yùn)行范圍歸一化過程可以應(yīng)用于vad特征以提供歸一化vad特征。
另外,針對干凈的話語被優(yōu)化的語音活動(dòng)檢測器可以應(yīng)用于對應(yīng)于多個(gè)有噪聲的音頻信號的多個(gè)干凈音頻信號。通過用針對干凈話語被優(yōu)化的語音活動(dòng)檢測器處理干凈音頻信號,可以獲得vad特征的基礎(chǔ)真值數(shù)據(jù)。
然后,可以使用基礎(chǔ)真值數(shù)據(jù)和從有噪聲的音頻信號得到的歸一化vad特征來訓(xùn)練神經(jīng)網(wǎng)絡(luò),因此它可以“學(xué)習(xí)”以將相似的歸一化vad特征集與相應(yīng)的基礎(chǔ)真值數(shù)據(jù)相關(guān)聯(lián)。
參考圖4,其示出了用于訓(xùn)練語音活動(dòng)檢測器400的方法的實(shí)施例。用于訓(xùn)練vad的方法400可以包括將干凈話語數(shù)據(jù)402與噪聲數(shù)據(jù)404進(jìn)行混合,以產(chǎn)生具有給定信噪比的“有噪聲的話語”的示例(步驟406)??梢栽u估每個(gè)噪聲話語信號以確定或計(jì)算每個(gè)時(shí)間幀的一個(gè)或多個(gè)vad特征(在“計(jì)算vad特征”處)(步驟408)。使用來自最近時(shí)間幀的(多個(gè))vad特征和可選地從一個(gè)或多個(gè)先前時(shí)間幀得到的特征信息,可以對這些vad特征執(zhí)行運(yùn)行范圍歸一化過程(在“運(yùn)行范圍歸一化”處)(步驟410)。運(yùn)行范圍歸一化過程可以包括計(jì)算每個(gè)時(shí)間幀的特征下限估計(jì)和特征上限估計(jì)。通過將特征下限估計(jì)和特征上限估計(jì)之間的范圍映射到期望目標(biāo)范圍,可以在多個(gè)時(shí)間幀內(nèi)或在時(shí)間上對相應(yīng)vad特征的參數(shù)進(jìn)行歸一化(“歸一化vad特征”)(步驟412)。
可以通過手動(dòng)標(biāo)記干凈的話語數(shù)據(jù)來獲得“基礎(chǔ)真值vad數(shù)據(jù)”,或者其可以從輸入是相同的干凈話語數(shù)據(jù)的常規(guī)vad中獲得,其中有噪聲的話語和vad特征從該相同的干凈話語數(shù)據(jù)得到(步驟414)。然后使用歸一化vad特征和基礎(chǔ)真值vad數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),因此可以從歸一化vad特征的某些組合和/或序列對應(yīng)于某些類型的基礎(chǔ)真值vad數(shù)據(jù)的事實(shí)進(jìn)行推斷(“學(xué)習(xí)”)(步驟416)。
一旦已經(jīng)訓(xùn)練了語音活動(dòng)檢測器,則可以測試經(jīng)訓(xùn)練的語音活動(dòng)檢測器以及其優(yōu)化的歸一化vad特征。圖5示出了用于測試語音活動(dòng)檢測器500的方法的實(shí)施例的處理流程。經(jīng)訓(xùn)練的語音活動(dòng)檢測器的測試可以使用干凈的話語數(shù)據(jù)502(例如,附加訓(xùn)練信號)和噪聲數(shù)據(jù)504的一個(gè)或多個(gè)附加集合,其可以以各種信噪比混合在一起以產(chǎn)生有噪聲的話語信號(步驟506)。在每個(gè)時(shí)間幀處,從有噪聲的話語計(jì)算一組vad特征(步驟508),并且使用運(yùn)行范圍歸一化處理來產(chǎn)生相應(yīng)的一組歸一化vad特征(步驟210)。這些歸一化vad特征被應(yīng)用于神經(jīng)網(wǎng)絡(luò)(步驟512)。神經(jīng)網(wǎng)絡(luò)被配置和訓(xùn)練以產(chǎn)生可以可選地被平滑化、量化、閾值化或以其它方式后處理的vad估計(jì)(步驟514)。另外,干凈的話語數(shù)據(jù)被應(yīng)用于針對干凈話語優(yōu)化的vad(步驟516),以產(chǎn)生一組基礎(chǔ)真值vad數(shù)據(jù)518,其可以可選地被平滑化、量化、閾值化或以其它方式后處理(步驟520)。來自神經(jīng)網(wǎng)絡(luò)的(可選地后處理的)vad估計(jì)和(可選地后處理的)基礎(chǔ)真值vad數(shù)據(jù)可以應(yīng)用于計(jì)算諸如“精度”和“召回”的精度測量的過程,從而允許開發(fā)者精細(xì)調(diào)整該算法以獲得最佳性能(步驟522)。
本發(fā)明的實(shí)施例還可以擴(kuò)展到用于分析數(shù)字?jǐn)?shù)據(jù)的計(jì)算機(jī)程序產(chǎn)品。這種計(jì)算機(jī)程序產(chǎn)品可能旨在用于在計(jì)算機(jī)處理器上執(zhí)行計(jì)算機(jī)可執(zhí)行指令,以便執(zhí)行用于分析數(shù)字?jǐn)?shù)據(jù)的方法。這種計(jì)算機(jī)程序產(chǎn)品可以包括具有編碼于其上的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),其中當(dāng)在適當(dāng)?shù)挠?jì)算機(jī)環(huán)境內(nèi)的合適的處理器上執(zhí)行時(shí),這些計(jì)算機(jī)可執(zhí)行指令執(zhí)行如本文進(jìn)一步描述的分析數(shù)字?jǐn)?shù)據(jù)的方法。
本發(fā)明的實(shí)施例可以包括或利用包含計(jì)算機(jī)硬件(諸如例如一個(gè)或多個(gè)計(jì)算機(jī)處理器和數(shù)據(jù)存儲(chǔ)裝置或系統(tǒng)存儲(chǔ)器)的專用或通用計(jì)算機(jī),如下面更詳細(xì)地討論。本發(fā)明的范圍內(nèi)的實(shí)施例還包括用于運(yùn)載或存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令和/或數(shù)據(jù)結(jié)構(gòu)的物理和其它計(jì)算機(jī)可讀介質(zhì)。這種計(jì)算機(jī)可讀介質(zhì)可以是可由通用或?qū)S糜?jì)算機(jī)系統(tǒng)訪問的任何可用介質(zhì)。存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)是計(jì)算機(jī)存儲(chǔ)介質(zhì)。運(yùn)載計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)是傳輸介質(zhì)。因此,作為示例而非限制,本發(fā)明的實(shí)施例可以包括至少兩種明顯不同種類的計(jì)算機(jī)可讀介質(zhì):計(jì)算機(jī)存儲(chǔ)介質(zhì)和傳輸介質(zhì)。
計(jì)算機(jī)存儲(chǔ)介質(zhì)包括ram、rom、eeprom、cd-rom或其它光盤存儲(chǔ)裝置、磁盤存儲(chǔ)裝置或其它磁存儲(chǔ)設(shè)備,或任何其它物理介質(zhì),其可用于以計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)的形式存儲(chǔ)所需程序代碼裝置并且可由通用或?qū)S糜?jì)算機(jī)訪問。
“網(wǎng)絡(luò)”被定義為使得能夠在計(jì)算機(jī)系統(tǒng)和/或模塊和/或其它電子設(shè)備之間輸送電子數(shù)據(jù)的一個(gè)或多個(gè)數(shù)據(jù)鏈路。當(dāng)信息通過網(wǎng)絡(luò)或其它通信連接(硬連線、無線或者硬連線或無線的組合)被轉(zhuǎn)移或提供給計(jì)算機(jī)時(shí),計(jì)算機(jī)將該連接正確地視為傳輸介質(zhì)。傳輸介質(zhì)可以包括網(wǎng)絡(luò)和/或數(shù)據(jù)鏈路,其可以用于以可由通用或?qū)S糜?jì)算機(jī)接收或訪問的計(jì)算機(jī)可執(zhí)行指令和/或數(shù)據(jù)結(jié)構(gòu)的形式運(yùn)載或發(fā)送期望的程序代碼裝置。上述各項(xiàng)的組合也應(yīng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。
此外,在到達(dá)各種計(jì)算機(jī)系統(tǒng)組件時(shí),計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的程序代碼裝置可以被自動(dòng)地從傳輸介質(zhì)轉(zhuǎn)移到計(jì)算機(jī)存儲(chǔ)介質(zhì)(反之亦然)。例如,通過網(wǎng)絡(luò)或數(shù)據(jù)鏈路接收的計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)可以在網(wǎng)絡(luò)接口模塊(例如,“nic”)內(nèi)的ram中被緩沖,然后被最終轉(zhuǎn)移到計(jì)算機(jī)系統(tǒng)ram和/或計(jì)算機(jī)系統(tǒng)內(nèi)的較不易失的計(jì)算機(jī)存儲(chǔ)介質(zhì)中。因此,應(yīng)當(dāng)理解,計(jì)算機(jī)存儲(chǔ)介質(zhì)可以被包括在也(或可能主要)利用傳輸介質(zhì)的計(jì)算機(jī)系統(tǒng)組件中。
計(jì)算機(jī)可執(zhí)行指令包括例如在處理器處被執(zhí)行時(shí)使通用計(jì)算機(jī)、專用計(jì)算機(jī)或?qū)S锰幚碓O(shè)備執(zhí)行某一功能或一組功能的指令和數(shù)據(jù)。計(jì)算機(jī)可執(zhí)行指令可以是例如可在處理器上直接執(zhí)行的二進(jìn)制文件,諸如匯編語言之類的中間格式指令,或甚至可能需要由針對特定機(jī)器或處理器的編譯器編譯的更高級別的源代碼。雖然已經(jīng)用特別針對結(jié)構(gòu)特征和/或方法動(dòng)作的語言描述了主題,但是應(yīng)當(dāng)理解,所附權(quán)利要求中限定的主題不一定限于上述所描述的特征或動(dòng)作。相反,所描述的特征和動(dòng)作被公開為實(shí)現(xiàn)權(quán)利要求的示例形式。
本領(lǐng)域技術(shù)人員將理解,本發(fā)明可以在具有許多類型的計(jì)算機(jī)系統(tǒng)配置的網(wǎng)絡(luò)計(jì)算環(huán)境中實(shí)踐,這些配置包括個(gè)人計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、消息處理器、手持設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程的消費(fèi)類電子產(chǎn)品、網(wǎng)絡(luò)pc、小型計(jì)算機(jī)、大型計(jì)算機(jī)、移動(dòng)電話、pda、尋呼機(jī)、路由器、交換機(jī)等。本發(fā)明也可以在分布式系統(tǒng)環(huán)境中實(shí)現(xiàn),其中通過網(wǎng)絡(luò)(通過硬連線數(shù)據(jù)鏈路、無線數(shù)據(jù)鏈路或通過硬連線和無線數(shù)據(jù)鏈路的組合)鏈接的本地和遠(yuǎn)程計(jì)算機(jī)系統(tǒng)都執(zhí)行任務(wù)。在分布式系統(tǒng)環(huán)境中,程序模塊可能位于本地和遠(yuǎn)程存儲(chǔ)裝置中。
參考圖6,其示出了用于分析數(shù)字音頻數(shù)據(jù)的示例性計(jì)算機(jī)架構(gòu)600。計(jì)算機(jī)架構(gòu)600(這里也稱為計(jì)算機(jī)系統(tǒng)600)包括一個(gè)或多個(gè)計(jì)算機(jī)處理器602和數(shù)據(jù)存儲(chǔ)裝置。數(shù)據(jù)存儲(chǔ)裝置可以是計(jì)算系統(tǒng)600內(nèi)的存儲(chǔ)器604,并且可以是易失性或非易失性存儲(chǔ)器。計(jì)算系統(tǒng)600還可以包括用于顯示數(shù)據(jù)或其它信息的顯示器612。計(jì)算系統(tǒng)600還可以包含允許計(jì)算系統(tǒng)600通過例如網(wǎng)絡(luò)(例如,因特網(wǎng)610)與其它計(jì)算系統(tǒng)、裝置或數(shù)據(jù)源進(jìn)行通信的通信信道608。計(jì)算系統(tǒng)600還可以包括輸入裝置,例如麥克風(fēng)606,其允許訪問數(shù)字或模擬數(shù)據(jù)的源。這種數(shù)字或模擬數(shù)據(jù)可以是例如音頻或視頻數(shù)據(jù)。數(shù)字或模擬數(shù)據(jù)可以是諸如來自現(xiàn)場麥克風(fēng)的實(shí)時(shí)流數(shù)據(jù)的形式,或者可以是從數(shù)據(jù)存儲(chǔ)裝置614訪問的存儲(chǔ)數(shù)據(jù),該數(shù)據(jù)存儲(chǔ)裝置614可由計(jì)算系統(tǒng)600直接訪問或者可以通過通信信道608或經(jīng)由諸如因特網(wǎng)610的網(wǎng)絡(luò)更遠(yuǎn)程地訪問。
通信信道608是傳輸介質(zhì)的示例。傳輸介質(zhì)通常體現(xiàn)為諸如載波或其它輸送機(jī)制的調(diào)制數(shù)據(jù)信號中的計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并且包括任何信息傳遞介質(zhì)。作為示例而非限制,傳輸介質(zhì)包括有線介質(zhì)(諸如有線網(wǎng)絡(luò)和直接有線連接)以及無線介質(zhì)(諸如聲學(xué)、無線電、紅外線和其它無線介質(zhì))。本文所用的術(shù)語“計(jì)算機(jī)可讀介質(zhì)”包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和傳輸介質(zhì)。
在本發(fā)明的范圍內(nèi)的實(shí)施例還包括用于運(yùn)載或具有存儲(chǔ)于其上的計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)的計(jì)算機(jī)可讀介質(zhì)。稱為“計(jì)算機(jī)存儲(chǔ)介質(zhì)”的這種物理計(jì)算機(jī)可讀介質(zhì)可以是可由通用或?qū)S糜?jì)算機(jī)訪問的任何可用物理介質(zhì)。作為示例而非限制,這種計(jì)算機(jī)可讀介質(zhì)可以包括諸如ram、rom、eeprom、cd-rom或其它光盤存儲(chǔ)裝置、磁盤存儲(chǔ)裝置或其它磁存儲(chǔ)裝置的物理存儲(chǔ)裝置和/或存儲(chǔ)介質(zhì),或可用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)的形式的所需程序代碼裝置并且可由通用或?qū)S糜?jì)算機(jī)訪問的任何其它物理介質(zhì)。
計(jì)算機(jī)系統(tǒng)可以通過網(wǎng)絡(luò)(或作為其一部分)彼此連接,該網(wǎng)絡(luò)諸如為局域網(wǎng)(lan)、廣域網(wǎng)(wan)、無線寬帶區(qū)域網(wǎng)(“wwan”)以及甚至為因特網(wǎng)110。因此,所描繪的計(jì)算機(jī)系統(tǒng)以及任何其它連接的計(jì)算機(jī)系統(tǒng)及其組件中的每一個(gè)可以創(chuàng)建消息相關(guān)數(shù)據(jù)和交換消息相關(guān)數(shù)據(jù)(例如,因特網(wǎng)協(xié)議“ip”)數(shù)據(jù)報(bào)和通過網(wǎng)絡(luò)利用ip數(shù)據(jù)報(bào)(諸如傳輸控制協(xié)議(tcp)、超文本傳輸協(xié)議(http)、簡單郵件傳輸協(xié)議(smtp)等)的其它高層協(xié)議。
通過考慮上文提供的公開內(nèi)容、附圖和所附權(quán)利要求,所公開的主題的其它方面以及各方面的特征和優(yōu)點(diǎn)對于本領(lǐng)域的普通技術(shù)人員來說是顯而易見的。
盡管上述公開提供了許多具體細(xì)節(jié),但是這些不應(yīng)被解釋為限制隨后所附權(quán)利要求中任何一個(gè)的范圍??梢栽O(shè)計(jì)出不脫離權(quán)利要求的范圍的其它實(shí)施例。來自不同實(shí)施例的特征可以組合使用。
最后,雖然上面已經(jīng)參考各種示例性實(shí)施例描述了本發(fā)明,但是在不偏離本發(fā)明的范圍的情況下,可以對實(shí)施例進(jìn)行許多改變、組合和修改。例如,雖然已經(jīng)將本發(fā)明描述為用于話語檢測,但是本發(fā)明的各方面可以容易地應(yīng)用于其它音頻、視頻、數(shù)據(jù)檢測方案。此外,各種元件、組件和/或過程可以以可替代的方式來實(shí)現(xiàn)。這些替代方案可以根據(jù)特定應(yīng)用或考慮與方法或系統(tǒng)的實(shí)施或操作相關(guān)聯(lián)的任何數(shù)量的因素來適當(dāng)?shù)剡x擇。此外,本文描述的技術(shù)可以被擴(kuò)展或修改以與其它類型的應(yīng)用和系統(tǒng)一起使用。這些和其它改變或修改旨在被包括在本發(fā)明的范圍內(nèi)。