適應(yīng)性音頻捕獲的制作方法
【專利摘要】本發(fā)明的實施例涉及適應(yīng)性音頻捕獲。公開了一種用于適應(yīng)性音頻捕獲的方法,該方法包括通過與用戶終端上的音頻捕獲元件相關(guān)聯(lián)的音頻通道獲取音頻信號;通過對獲取的音頻信號進(jìn)行處理來計算音頻通道的信號幅值;以及基于信號幅值和與用戶終端上的至少一個其他音頻捕獲元件關(guān)聯(lián)的至少一個其他音頻通道的其他信號幅值來確定音頻捕獲元件的功能。還公開了相應(yīng)的裝置、計算機程序產(chǎn)品和用戶終端。
【專利說明】適應(yīng)性音頻捕獲
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實施例總體上涉及音頻處理,并且更具體地,涉及一種用于適應(yīng)性音頻捕獲的方法、裝置、計算機程序和用戶終端。
【背景技術(shù)】
[0002]移動電話、平板式計算機或個人數(shù)字助理(PDA)之類的用戶終端可具有多個音頻捕獲元件,諸如多個麥克風(fēng)。這種配置在過去幾年已變得流行起來。例如,可購得的智能移動電話通常配備有兩個或多個麥克風(fēng)。一般而言,在單個用戶終端上的多個音頻捕獲元件中,某些音頻捕獲元件被設(shè)計為充當(dāng)主音頻捕獲元件,并且用于例如捕獲前景音頻信號;而另一些音頻捕獲元件可以充當(dāng)參考音頻捕獲元件或稱輔音頻捕獲元件,并且用于例如捕獲背景音頻信號。例如,位于移動電話下半部的麥克風(fēng)通常被假設(shè)能夠捕獲來自說話人的高質(zhì)量的語音信號。因此,該麥克風(fēng)通常被用作主音頻捕獲元件,以捕獲用戶在話音呼叫中的語音信號。另一位置的麥克風(fēng)可以充當(dāng)可用于捕獲背景噪聲的輔音頻捕獲元件,以用于環(huán)境噪聲估計、噪聲抑制,等等。
[0003]本領(lǐng)域的技術(shù)人員將會理解,用戶終端相對于音頻信號源的空間位置和周圍環(huán)境將影響音頻捕獲效果。例如,在某些情況下,原始設(shè)計的主音頻捕獲元件可能被遮擋或者處于用戶終端相對于音頻信號源的背面,從而造成原始設(shè)計的主音頻捕獲元件無法捕獲高質(zhì)量的音頻信號。然而,在現(xiàn)有技術(shù)中,輔音頻捕獲元件或參考音頻捕獲元件在這種情況下無法被激活以充當(dāng)主音頻捕獲元件,即便該元件現(xiàn)位于較優(yōu)或最優(yōu)位置。換言之,用戶終端上的音頻捕獲元件的功能在設(shè)計和制造時就已被固定,并且無法在使用中適應(yīng)性地改變或切換。因此,音頻捕獲的質(zhì)量將會降低。
[0004]鑒于前述內(nèi)容,本領(lǐng)域需要一種能夠適應(yīng)各種使用條件的音頻捕獲解決方案。
【發(fā)明內(nèi)容】
[0005]為了解決前述和其他潛在問題,本發(fā)明的實施例提出一種用于適應(yīng)性音頻捕獲的方法、裝置、計算機程序和用戶終端。
[0006]在一個方面,本發(fā)明的實施例提供一種用于適應(yīng)性音頻捕獲的方法。該方法包括:通過與用戶終端上的音頻捕獲元件關(guān)聯(lián)的音頻通道獲取音頻信號;通過對獲取的音頻信號進(jìn)行處理來計算音頻通道的信號幅值;并且基于信號幅值和與用戶終端上的至少一個其他音頻捕獲元件關(guān)聯(lián)的至少一個其他音頻通道的其他信號幅值,確定音頻捕獲元件的功能。本方面的其他實施例包括相應(yīng)的計算機程序產(chǎn)品。
[0007]在另一方面,本發(fā)明的實施例提供一種用于適應(yīng)性音頻捕獲的裝置。該裝置包括:獲取單元,被配置為通過與用戶終端上的音頻捕獲元件關(guān)聯(lián)的音頻通道獲取音頻信號;計算單元,被配置為通過對獲取的音頻信號進(jìn)行處理來計算音頻通道的信號幅值;以及確定單元,被配置為基于信號幅值和與用戶終端上的至少一個其他音頻捕獲元件關(guān)聯(lián)的至少一個其他音頻通道的其他信號幅值,確定音頻捕獲元件的功能。[0008]在又一方面,本發(fā)明的實施例提供一種用戶終端。該用戶終端包括至少一個處理器;多個音頻捕獲元件;以及至少一個存儲器,與至少一個處理器耦合并且存儲計算機可執(zhí)行指令的程序,計算機可執(zhí)行指令被配置為與至少一個處理器一起使移動終端至少根據(jù)上文概述的方法執(zhí)行。
[0009]本發(fā)明的這些和其他可選實施例可以被實施以實現(xiàn)以下一個或多個優(yōu)點。對于配備有多個音頻捕獲元件的用戶終端,通過實時地對音頻信號進(jìn)行處理和分析,單個用戶終端上的多個音頻捕獲元件的功能可以動態(tài)地被確定并且改變。例如,根據(jù)用戶終端相對于音頻信號源的相對位置和/或用戶終端本身的姿態(tài)等各種因素,最優(yōu)音頻捕獲元件可以被適應(yīng)性地確定為主元件,而一個或多個其他音頻捕獲元件可以相應(yīng)地充當(dāng)參考音頻捕獲元件。以此方式,捕獲的音頻信號的質(zhì)量可以在各種使用條件下被維持在高水平。
[0010]在結(jié)合附圖閱讀時,還將從以下對示例性實施例的描述中理解本發(fā)明的實施例的其他特征和益處。附圖以示例方式說明了本發(fā)明的精神和原理。
【專利附圖】
【附圖說明】
[0011]本發(fā)明的一個或多個實施例的細(xì)節(jié)將在附圖和以下描述中得到闡述。本發(fā)明的其他特征、方面和益處將從說明書、附圖和權(quán)利要求中變得明顯,其中:
[0012]圖1是示出了根據(jù)本發(fā)明的示例性實施例的一種用于適應(yīng)性音頻捕獲的方法的流程圖;
[0013]圖2是示出了根據(jù)本發(fā)明的另一示例性實施例的一種用于適應(yīng)性音頻捕獲的方法的流程圖;
[0014]圖3A和圖3B是示出了根據(jù)本發(fā)明的示例性實施例的適應(yīng)性音頻捕獲的示例的示意圖;
[0015]圖4是示出了根據(jù)本發(fā)明的示例性實施例的一種用于適應(yīng)性音頻捕獲的裝置的框圖;
[0016]圖5是示出了根據(jù)本發(fā)明的示例性實施例的用戶終端的框圖。
[0017]所有附圖中,相同或相似的參考標(biāo)號指示相同或相似的元素。
【具體實施方式】
[0018]總體上,本發(fā)明的實施例提供一種用于適應(yīng)性音頻捕獲的方法、裝置和計算機程序產(chǎn)品。根據(jù)本發(fā)明的實施例,對于配備有多個音頻捕獲元件的用戶終端,通過實時地對音頻信號進(jìn)行處理和分析,單個用戶終端上的多個音頻捕獲元件的功能可以動態(tài)地被確定和改變。由此,捕獲的音頻信號的質(zhì)量可以在各種使用條件下被維持在較高水平。
[0019]首先參考圖1,其示出了圖示根據(jù)本發(fā)明的示例性實施例的一種用于適應(yīng)性音頻捕獲的方法100的流程圖。如圖所示,方法100開始后,在步驟S101,通過與用戶終端上的音頻捕獲元件相關(guān)聯(lián)的音頻通道來獲取音頻信號。根據(jù)本發(fā)明的實施例,用戶終端配備有多個音頻捕獲元件。此處所使用的術(shù)語“音頻捕獲元件”是指可以被配置為捕獲、記錄或以其他方式獲取音頻信號的任何適當(dāng)設(shè)備,諸如麥克風(fēng)。每個音頻捕獲元件與一個音頻通道相關(guān)聯(lián),音頻捕獲元件所捕獲的音頻信號可以通過音頻通道被傳遞至例如用戶終端的處理器或控制器。[0020]方法100繼而進(jìn)行到步驟S103,在此通過對獲取的音頻信號進(jìn)行處理來計算音頻通道的信號幅值(amplitude)。根據(jù)本發(fā)明的實施例,音頻通道的信號幅值可以包括指示該通道上的音頻信號的量值(magnitude)的任何信息。在一些示例性實施例中,在步驟S103處計算的信號幅值可以包括時域中的信號量值,其例如可以表示為音頻信號的均方根值。備選地或附加地,獲取的音頻信號在頻域中的幅值,如頻譜幅值和/或功率譜,也可以用作信號幅值。將會理解,這些僅僅是信號幅值的一些示例,不應(yīng)被解釋為對本發(fā)明的限制。任何能夠指示音頻通道的信號幅值的信息都可以與本發(fā)明的實施例結(jié)合使用,無論是目前已知的還是將來開發(fā)的。具體示例將在下文參考圖2詳述。
[0021]此外,在話音呼叫等某些情況中,音頻信號源(例如,說話人)相對于用戶終端上的音頻捕獲元件的位置通常將至少將在一段特定時間內(nèi)保持穩(wěn)定。因此,在一些示例性實施例中,在步驟S103計算的信號幅值可以包括在給定的時間間隔中累計的信號幅值的平均。在這些實施例中,平均信號幅值例如可以用于確定音頻捕獲元件在下一時間間隔中的功能。下面將參考圖2對這一方面的具體示例進(jìn)行詳細(xì)說明。
[0022]接下來,在步驟S104,基于信號幅值以及針對與用戶終端上的至少一個其他音頻捕獲元件相關(guān)聯(lián)的至少一個其他音頻通道的另一信號幅值,確定音頻捕獲元件的功能。如上所述,除了步驟SlOl和S103考慮的音頻通道之外,用戶終端還配備有一個或多個其他音頻捕獲元件,每個音頻捕獲元件與相應(yīng)的音頻通道相關(guān)聯(lián)。這些音頻通道中一個或多個的信號幅值可以按照與上文描述的類似方式被計算。根據(jù)本發(fā)明的實施例,其他音頻通道的信號幅值可以通過方法100或通過與該該音頻通道相關(guān)聯(lián)或者專用于該音頻通道的類似過程而計算。
[0023]音頻捕獲元件的功能可以基于相關(guān)聯(lián)的音頻通道的信號幅值以及同一用戶終端上的一個或多個其他音頻通道的其他信號幅值而被確定。一般而言,如果一個音頻通道具有較高的信號幅值,則相關(guān)聯(lián)的音頻捕獲元件可被用作主元件,并且例如被配置為捕獲前景音頻信號(例如,用戶在話音呼叫中的語聲信號)。反之,如果一個音頻通道具有較低信號幅值,則相關(guān)聯(lián)的音頻捕獲元件可被用作輔音頻捕獲元件或參考音頻捕獲元件,并且例如被配置為捕獲背景音頻信號以用于噪聲估計目的。
[0024]方法100在步驟S104之后結(jié)束。通過使用方法100,多個音頻捕獲元件的功能可以實時地根據(jù)具體情況而被適應(yīng)性地確定。例如,假定移動電話具有兩個麥克風(fēng),其中之一是用于捕獲用戶的語聲信號的主麥克風(fēng),而另一個是用于捕獲背景噪聲的輔麥克風(fēng)。如果原始的主麥克風(fēng)被物體遮擋并且相關(guān)聯(lián)的音頻通道上的信號量值因此降低到低于與原輔麥克風(fēng)相關(guān)聯(lián)的音頻通道的信號量值,那么這兩個麥克風(fēng)的功能可以相應(yīng)地交換。即,原始的輔元件現(xiàn)在變?yōu)槌洚?dāng)主音頻捕獲元件,而原始的主音頻捕獲元件可以變成充當(dāng)輔音頻捕獲元件或是被直接停用。
[0025]現(xiàn)在將參考圖2對一個更為具體的示例進(jìn)行描述。圖2示出了圖示根據(jù)本發(fā)明的另一示例性實施例的一種用于適應(yīng)性音頻捕獲的方法200。
[0026]方法200開始之后,在步驟S201,通過與用戶終端上的音頻捕獲元件相關(guān)聯(lián)的音頻通道獲取音頻信號。假定用戶終端包括多個麥克風(fēng)作為音頻捕獲元件,音頻信號可以從與一個麥克風(fēng)相關(guān)聯(lián)的音頻通道被獲取。步驟S201對應(yīng)于上文參考圖1描述的步驟S101,在此不再詳述。[0027]接下來,方法200進(jìn)行到步驟S202,在此執(zhí)行話音活動檢測(Voice ActivityDetection, VAD),以確定用戶終端的一個或多個音頻通道上是否存在話音活動。如果不存在話音活動,方法200返回步驟S201。換言之,根據(jù)圖2中示出的實施例,后續(xù)步驟只有在話音活動存在的情況下才會被執(zhí)行。這主要是出于節(jié)能考慮。也即,如果用戶終端的音頻通道上不存在話音活動,則無需計算信號幅值以及確定或改變音頻捕獲元件的功能。以此方式,用戶終端可以更有效地進(jìn)行操作。
[0028]根據(jù)本發(fā)明的實施例,可以利用各種策略來實現(xiàn)話音活動檢測。在一些示例性實施例中,話音活動檢測可以僅在單個音頻通道上執(zhí)行。例如,話音活動檢測可以在與用戶終端上的當(dāng)前主音頻捕獲元件相關(guān)聯(lián)的音頻通道上執(zhí)行。備選地,音頻活動檢測可以在不止一個音頻通道上執(zhí)行。僅出于說明目的,下面將描述在多個音頻通道上執(zhí)行話音活動檢測的實施例。
[0029]在這些實施例中,假定話音活動檢測將在話音通道的一個子集(表示為Lsub)上被執(zhí)行,該子集可以包括用戶終端上的某些或所有話音通道??梢詫现忻總€話音通道中的話音活動狀態(tài)進(jìn)行檢測。一般地,話音活動可以基于音頻信號的某個特征而被檢測,特征例如包括但不限于:短時能量、過零率、倒譜特征、Itakura LPC譜距離和/或元音的周期性測量。一個或多個這種特征可從音頻信號中被提取,繼而與預(yù)定閾值進(jìn)行比較以確定當(dāng)前幀是話音幀還是噪聲幀。任何適當(dāng)?shù)脑捯艋顒訖z測算法或過程都可以結(jié)合本發(fā)明的實施例使用。
[0030]如果第j個音頻通道上存在話音活動,那么對于信號幀n,與第j個音頻通道相關(guān)聯(lián)的話音活動狀態(tài)可以被設(shè)置為VADj(Ii) = 1,以指示當(dāng)前幀是語音幀。否則,與第j個通道相關(guān)聯(lián)的話音活動狀態(tài)被標(biāo)志為VADj (η) = O,以指示當(dāng)前幀是噪聲幀。當(dāng)前用戶終端的全部話音活動狀態(tài)可以被計算為集合Lsub中的每個話音通道的VAD (η)的和,其可以如下表達(dá):
【權(quán)利要求】
1.一種用于適應(yīng)性音頻捕獲的方法,所述方法包括: 通過與用戶終端上的音頻捕獲元件相關(guān)聯(lián)的音頻通道獲取音頻信號; 通過對獲取的所述音頻信號進(jìn)行處理,來計算所述音頻通道的信號幅值;以及基于所述信號幅值以及與所述用戶終端上的至少一個其他音頻捕獲元件相關(guān)聯(lián)的至少一個其他音頻通道的其他信號幅值,來確定所述音頻捕獲元件的功能。
2.根據(jù)權(quán)利要求1所述的方法,還包括: 檢測所述用戶終端的一個或多個音頻通道上是否存在話音活動, 其中所述音頻捕獲元件的所述功能在所述一個或多個音頻通道上存在所述話音活動的情況下被確定。
3.根據(jù)權(quán)利要求1所述的方法, 其中計算所述信號幅值包括計算獲取的所述音頻信號的時域幅值或頻域幅值。
4.根據(jù)權(quán)利要求1所述的方法, 其中計算所述信號幅值包括計算所述音頻通道在一個時間間隔內(nèi)的平均信號幅值,其中所述其他信號幅值包括所述至少一個其他音頻通道在所述時間間隔內(nèi)的其他平均信號幅值,以及 其中確定所述音頻捕獲元件的所述功能包括比較所述平均信號幅值和所述其他平均信號幅值。
5.根據(jù)權(quán)利要求1所述的方法,其中所述用戶終端具有主音頻通道, 其中計算所述信號幅值包括計算所述音頻通道相對于所述主音頻通道的相對幅值;其中所述其他信號幅值包括所述至少一個其他音頻通道相對于所述主音頻通道的其他相對幅值,以及 其中確定所述音頻捕獲元件的所述功能包括比較所述相對幅值和所述其他相對幅值。
6.根據(jù)權(quán)利要求1-5中的任一項所述的方法,其中確定所述音頻捕獲元件的所述功能包括: 將所述音頻捕獲元件歸類為用于捕獲前景音頻信號的主音頻捕獲元件組或者用于捕獲背景音頻信號的輔音頻捕獲元件組。
7.一種用于適應(yīng)性音頻捕獲的裝置,所述裝置包括: 獲取單元,被配置為通過與用戶終端上的音頻捕獲元件相關(guān)聯(lián)的音頻通道獲取音頻信號; 計算單元,被配置為通過對獲取的所述音頻信號進(jìn)行處理,來計算所述音頻通道的信號幅值;以及 確定單元,被配置為基于所 述信號幅值和與所述用戶終端上的至少一個其他音頻捕獲元件相關(guān)聯(lián)的至少一個其他音頻通道的其他信號幅值,來確定所述音頻捕獲元件的功能。
8.根據(jù)權(quán)利要求7所述的裝置,還包括: 話音活動檢測單元,被配置為檢測所述用戶終端的一個或多個話音通道上是否存在話音活動, 其中所述確定單元被配置為在所述一個或多個音頻通道上存在所述話音活動的情況下,確定所述音頻捕獲元件的所述功能。
9.根據(jù)權(quán)利要求7所述的裝置,其中所述計算單元包括以下至少一個:時域幅值計算單元,被配置為計算獲取的所述音頻信號的時域幅值;以及 頻域幅值計算單元,被配置為計算獲取的所述音頻信號的頻域幅值。
10.根據(jù)權(quán)利要求7所述的裝置, 其中所述計算單元包括平均幅值計算單元,被配置為計算所述音頻通道在一個時間間隔內(nèi)的平均信號幅值, 其中所述其他信號幅值包括所述至少一個其他音頻通道在所述時間間隔內(nèi)的其他平均信號幅值,以及 其中所述確定單元包括平均幅值比較單元,被配置為比較所述平均幅值和所述其他平均幅值。
11.根據(jù)權(quán)利要求7所述的裝置, 其中所述用戶終端具有主音頻通道, 其中所述計算單元包括相對幅值計算單元,被配置為計算所述音頻通道相對于所述主音頻通道的相對幅值, 其中所述其他信號 幅值包括所述至少一個其他音頻通道相對于所述主音頻通道的其他相對幅值,以及 其中所述確定單元包括相對幅值比較單元,被配置為比較所述相對幅值和所述其他相對幅值。
12.根據(jù)權(quán)利要求7-11中的任一項所述的裝置,其中所述確定單元包括: 歸類單元,被配置為將所述音頻捕獲元件歸類為用于捕獲前景音頻信號的主音頻捕獲元件組或者用于捕獲背景音頻信號的輔音頻捕獲元件組。
13.一種計算機程序產(chǎn)品包括有形地體現(xiàn)在計算機可讀介質(zhì)上的計算機程序代碼,所述計算機程序代碼包含被配置為執(zhí)行根據(jù)權(quán)利要求1-6中的任一項所述的方法的程序代碼。
14.一種用戶終端,包括: 至少一個處理器; 多個音頻捕獲元件;以及 至少一個存儲器,耦合至所述至少一個處理器并且存儲計算機可執(zhí)行指令的程序,所述計算機可執(zhí)行指令被配置為與所述至少一個處理器一起使所述移動終端至少根據(jù)權(quán)利要求1-6中的任一項所述的方法執(zhí)行。
【文檔編號】H04W88/02GK104025699SQ201280017109
【公開日】2014年9月3日 申請日期:2012年12月31日 優(yōu)先權(quán)日:2012年12月31日
【發(fā)明者】蔣斌, 吳晟, 林福輝, 徐晶明 申請人:展訊通信(上海)有限公司