本申請是申請日為2009年6月23日、申請?zhí)枮?00980160095.0、發(fā)明名稱為“用于處理音頻信號的方法及裝置”的發(fā)明專利申請的分案申請。
本發(fā)明涉及音頻信號的處理。
背景技術(shù):
音頻處理系統(tǒng)可以包含布置成捕獲若干音頻信號的若干麥克風。為了以高比特率經(jīng)由傳輸路徑進行傳輸,可以對音頻信號加以處理。但是,可能需要減少發(fā)送音頻信號所需的帶寬。音頻處理系統(tǒng)可以用作例如遠程會議系統(tǒng)的一部分。
眾所周知,參數(shù)編碼技術(shù)例如雙耳線索編碼(binauralcuecoding,bcc)可以用于降低多聲道音頻傳輸中的比特率。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供用于處理音頻信號的裝置。本發(fā)明的進一步目的是提供用于處理音頻信號的方法。
按照本發(fā)明的第一方面,提供了按照權(quán)利要求1所述的裝置。
按照本發(fā)明的第二方面,提供了按照權(quán)利要求14所述的方法。
按照本發(fā)明的第三方面,提供了按照權(quán)利要求19所述的計算機程序。
按照本發(fā)明的第四方面,提供了按照權(quán)利要求20所述的計算機可讀介質(zhì)。
按照本發(fā)明的裝置(300)可以包含:
-用以接收兩個或更多個不同音頻信號(s1,s2)的一個或多個輸入端(in1,in2);
-用以接收方向信號(svdi1)的輸入端(invdi1);以及
-布置成從所述兩個或更多個不同音頻信號(s1,s2)中生成經(jīng)過處理的音頻信號(saudio1)的信號處理單元(100),所述經(jīng)過處理的音頻信號(saudio1)包含與源自由所述方向信號(svdi1)所指的位置(x2,y2)的聲音(snd2)相對應的增強音頻信號(senc1)。
由于根據(jù)由方向指示器提供的方向信號增強了音頻信號,所以可以降低音頻傳輸所需的總比特率。所希望的到達方向的信息可以用于提高空間音頻編碼和表示的質(zhì)量。
傳統(tǒng)空間音頻編碼方案平等地對待整個音頻場景,其目的是在給定比特率下以最佳可能的感知質(zhì)量來表示整個聲像。但是,例如對于會話服務,可能只需要表示感興趣的關(guān)鍵性內(nèi)容,而把其余音頻場景當作環(huán)境聲音,以便以感興趣的方向優(yōu)化音頻質(zhì)量。
聽像內(nèi)的感興趣方向可以通過使用方向檢測單元來確定。例如,所述方向檢測單元可以是注視方向檢測設備。
聽像可以通過集中在所確定的感興趣方向上、例如通過使用定向麥克風陣列來捕獲。
聽像在所確定的感興趣方向上的音頻信號成分可以使用較高比特率來編碼,而其余音頻成分可以以較低比特率來編碼。換句話說,源自所選到達方向的音頻信號可以比聲像的其余部分更精確地被編碼。
在一個實施例中,方向信號可以由注視方向跟蹤設備提供。因此,可以增強感興趣方向上的音頻信號。舉一個例子來說,遠程會話的參與者可以簡單地通過看著最相關(guān)揚聲器或通過看著所述揚聲器的顯示圖像來增強所述揚聲器的聲音。
在一個實施例中,由方向指示器提供的方向信號可以用于指引定向麥克風陣列的最大靈敏度的方向。
按照本發(fā)明的系統(tǒng)和方法可以提供周圍音頻場景中集中朝向感興趣方向的空間音頻內(nèi)容的高效和靈活的編碼。空間音頻參數(shù)化可以從由注視方向檢測設備或用于指出感興趣方向的其它部件所指的感興趣方向中提取。在一個實施例中,可以利用較粗糙參數(shù)化和編碼來處理音頻場景的其余部分。在一個實施例中,可以利用最少數(shù)量參數(shù)和利用低比特率將音頻場景的其余部分當作環(huán)境噪聲來處理。
本領域的技術(shù)人員可以通過下文給出的描述和例子,以及也通過所附權(quán)利要求書更清楚地了解本發(fā)明的實施例以及它們的益處。
附圖說明
在如下例子中,將參考附圖更詳細地描述本發(fā)明的實施例,在附圖中:
圖1a示出了方向選擇單元位于系統(tǒng)的發(fā)送側(cè)的音頻處理系統(tǒng);
圖1b示出了方向選擇單元位于系統(tǒng)的接收側(cè)的音頻處理系統(tǒng);
圖2示出了眼睛的注視方向;
圖3示出了注視方向檢測設備;
圖4示出了如由注視方向檢測設備的圖像傳感器所捕獲的眼睛的圖像;
圖5a示出了看著真實物體的眼睛,其中眼睛的注視方向由注視方向檢測設備監(jiān)視;
圖5b示出了看著物體的圖像的眼睛,其中眼睛的注視方向由注視方向檢測設備監(jiān)視;
圖5c示出了看著物體的虛像的眼睛,其中眼睛的注視方向由注視方向檢測設備監(jiān)視;
圖6示出了一種音頻處理系統(tǒng);
圖7a示出了包含定向麥克風陣列的音頻處理系統(tǒng);
圖7b示出了包含定向麥克風陣列的音頻處理系統(tǒng);
圖7c示出了包含定向麥克風陣列和濾波單元的音頻處理系統(tǒng);
圖8a示出了參數(shù)音頻編碼器;
圖8b示出了布置成根據(jù)由附加麥克風捕獲的音頻信號提供空間音頻參數(shù)的參數(shù)音頻編碼器;
圖8c示出了布置用于為參數(shù)音頻編碼提供縮混(downmixed)信號的定向麥克風陣列;
圖8d示出了根據(jù)方向信號調(diào)整空間音頻參數(shù);以及
圖9示出了根據(jù)聽眾的位置和取向創(chuàng)建到所述聽眾的虛擬聲場。
所有圖形都是示意性的。
具體實施方式
參照圖1a,音頻處理系統(tǒng)300可以包含兩個或更多個麥克風m1,m2,m3、方向選擇單元vd1、信號處理單元100、和一個或多個電聲換能器spk1,spk2。
聲音可以源自處在不同空間位置(x1,y1),(x2,y2)和(x3,y3)上的聲源a1,a2,a3。聲源a1,a2,a3可以是聽覺場景中的任何聲源,例如參加會議的參與者。
從聲源a1,a2,a3發(fā)出的聲音snd1,snd2,snd3可以被麥克風m1,m2,m3捕獲,以便分別提供音頻信號s1,s2,s3。
例如由于聲源與麥克風之間的不同距離,由于聲源的定向發(fā)射模式,和/或由于麥克風的定向靈敏度,麥克風m1,m2,m3對于從源a1,a2,a3發(fā)出的聲音可以具有不同靈敏度。
例如,第一麥克風m1可能主要對從第一聲源a1發(fā)出的聲音靈敏,并且第一麥克風m1可能對從第二聲源a2和第三聲源a3發(fā)出的聲音較不靈敏。第二麥克風m2可能對從第二聲源a2發(fā)出的聲音靈敏,以及第三麥克風可能對從第三聲源a3發(fā)出的聲音靈敏等。
音頻信號s1,s2,s3可以被轉(zhuǎn)換成數(shù)字形式并且加以處理以供發(fā)送和/或存儲在例如存儲設備中。如果需要的話,可以經(jīng)由傳輸路徑400發(fā)送與所述音頻信號s1,s2,s3相對應的經(jīng)過處理的音頻信號saudio1。為了降低傳輸所需的總比特率,可以將信號處理單元100布置用于為源自由方向選擇單元vdi1所指的所選空間位置的音頻信號分配較高比特率,以及可以將信號處理單元100布置用于為源自其它位置的音頻信號指定較低比特率。
具體地,可以將信號處理單元100布置成增強源自由方向選擇單元vdi1所指的空間位置的音頻信號。換句話說,可以將信號處理單元100布置成抑制源自其它位置的音頻信號。
方向選擇單元vdi1提供信號svdi1,信號svdi1可以包含有關(guān)所選空間位置相對于基準方向的方向的信息。該方向可以例如通過方向sy與從方向選擇單元vdi1畫到所選位置的直線seld之間的水平角度α來表達。信號svdi1還可以包含有關(guān)方向sy與直線seld之間的垂直角度的信息。
方向選擇單元vdi1可以由用戶a5操作。方向選擇單元vdi1可以是例如注視方向檢測設備、衛(wèi)星導航設備、電子羅盤、陀螺羅盤或集成加速度計。電子羅盤可以包含例如基于霍爾效應的磁場傳感器。
可以將方向選擇單元vdi1布置成檢測用戶a5的注視方向,或用戶可以手動地使羅盤或加速度計指向所選位置??梢匝刂M姆较蛞苿有l(wèi)星導航設備例如gps設備(全球定位系統(tǒng)),以便提供方向信號svdi1。
信號處理單元100可以包含濾波單元20。濾波單元20可以包含一組濾波器f1,f3,f3。第一麥克風m1捕獲的音頻信號s1可以由第一濾波器f1濾波,第二麥克風m2捕獲的音頻信號s2可以由第二濾波器f2濾波,以及第三麥克風m3捕獲的音頻信號s3可以由第三濾波器f3濾波。
可以將濾波單元20的濾波器f1,f2,f3布置成改變音頻信號的至少一個(例如,s2)相對于其它音頻信號(例如,s1,s3)的電平,以便可以增強源自由方向選擇單元vdi1所指的空間位置的音頻信號。濾波器可以按照由方向選擇單元vdi1提供的方向信號svdi1改變音頻信號s1,s2,s3的至少一個的電平。
每個濾波器f1,f2,f3可以包含一個或多個濾波系數(shù)k1,k2,k3。符號k1可以表示單個標量乘數(shù)。系數(shù)k1,k2,k3可以是標量乘數(shù)。例如,可以將音頻信號s1乘以第一濾波系數(shù)k1,可以將音頻信號s2乘以第二濾波系數(shù)k2,以及可以將音頻信號s3乘以第三濾波系數(shù)k3,以便增強所選音頻信號。
每個符號k1,k2,k3也可以表示濾波系數(shù)的集合。具體地,符號k1可以表示代表數(shù)字濾波器f1的系數(shù)的陣列。例如,當選擇了與第二聲源a2的位置(x2,y2)相對應的方向時,則可以將信號處理單元100布置成將第二濾波系數(shù)k2的值設置得大于第一濾波系數(shù)k1和第三濾波系數(shù)k3的值。因此,可以有選擇地提高第二麥克風m2的音頻信號s2的電平,以便提供增強音頻信號senc。
音頻信號的電平可以在它們處在模擬形式或數(shù)字形式下時加以調(diào)整。
信號處理單元100可以包含編碼器30。編碼器30可以是參數(shù)編碼器(參見圖8a)。具體地,可以將編碼器布置成提供雙耳線索編碼信號(bcc)??梢詫⒕幋a器30布置成將時域信號轉(zhuǎn)換到頻域中。音頻信號的電平也可以在頻域中加以改變,而不是在時域中調(diào)整電平。例如,可以在頻域中將經(jīng)傅立葉變換的信號乘以系數(shù)k1,k3,k3,...,而不是在時域中乘以音頻信號s1,s2,s3。
可以將信號處理單元100布置成提供經(jīng)過處理的音頻信號saudio1,經(jīng)過處理的音頻信號saudio1包含與源自由方向信號所指的位置的聲音相對應的增強音頻信號senc。例如,增強音頻信號senc可以對應于源自位置(x2,y2)的聲音snd2。
經(jīng)過處理的音頻信號saudio1可以是例如單聲道(monophonic)音頻信號。單聲道音頻信號sc2可以經(jīng)由單個換能器spk1再生。但是,在那種情況下,在系統(tǒng)300的接收端上不再生聽像。
當接收器只解碼和再現(xiàn)縮混信號時,聽眾可以只專注于方向選擇單元vdi1已選擇的聲源。
為了再生空間效果,系統(tǒng)300可以包含布置成根據(jù)編碼音頻信號saudio1提供兩個或更多個音頻信號的解碼器200。分離的音頻信號可以經(jīng)由兩個或更多個電聲換能器spk1,spk2再生,從而在系統(tǒng)300的接收端的聽眾a4可以聽到再生的聲像。換能器spk1,spk2可以是例如揚聲器或耳機。
編碼音頻信號saudio1可以是雙耳線索編碼(bcc)的,并且可以將解碼器200布置成將編碼音頻信號saudio1轉(zhuǎn)換成兩個不同聲道,以便經(jīng)由spk1,spk2再生立體聲。
經(jīng)過處理的音頻信號saudio1可以是雙耳線索編碼(bcc)的,并且可以將解碼器200布置成將音頻信號saudio1轉(zhuǎn)換成三個或更多個聲道,以便經(jīng)由揚聲器再生。例如,可以將解碼器200布置成將音頻信號saudio1轉(zhuǎn)換成5.1環(huán)繞聲或7.1環(huán)繞聲。5.1環(huán)繞聲系統(tǒng)具有相對于聽眾處在不同方向上的五個揚聲器、和一個低頻音效聲道(lfe)。7.1環(huán)繞聲系統(tǒng)具有相對于聽眾處在不同方向上的七個揚聲器、和一個低頻音效聲道(lfe)。
一般說來,可以將解碼器200布置成根據(jù)經(jīng)過處理的音頻信號saudio1提供1,2,3,4,5,6,7,8,9,10個或更多不同音頻聲道。
如果需要的話,也可以經(jīng)由傳輸路徑400發(fā)送方向選擇單元vdi1所提供的信號svdi1??梢詫⒎较蛐盘杝vdi耦合到解碼器200。因此,如果需要的話,可以按照由方向信號svdi所指的方向再現(xiàn)再生的音頻信號。
可以將麥克風m1,m2,m3所捕獲的音頻信號s1,s2,s3耦合到信號處理單元100的各自輸入端in1,in2,in3。信號處理單元100可以包含接口if1,用于提供經(jīng)過處理的音頻信號saudio1以供發(fā)送器(未示出)進行發(fā)送和/或從接收器(未示出)接收方向信號svdi1。但是,信號處理單元100可以包含發(fā)送器,和/或解碼器200可以包含接收器。
信號處理設備100可以包含用于例如存儲用于操作所述信號處理設備100的計算機程序代碼的存儲器mem1。
如果與聲源a1,a2,a3和麥克風m1,m2,m3之間的最小距離l1相比,方向指示器vdi1與麥克風m1,m2,m3之間的距離wvm較大,則可以將數(shù)據(jù)處理單元100布置成考慮到方向指示器vdi1相對于麥克風m1,m2,m3的位置和/或聲源a1,a2,a3與麥克風之間的距離。
方向指示器vdi1與麥克風m1,m2,m3之間的距離wvm優(yōu)選地比聲源a1,a2,a3與麥克風m1,m2,m3之間的最小距離l1的25%更小。
如果需要的話,也可以在經(jīng)由單個輸入端in1耦合到信號處理設備100之前多路復用音頻信號s1,s2,s3。信號處理設備100可以包含布置成將音頻信號s1,s2,s3分別分配給不同濾波器f1,f2,f3的解多路復用器。
sx,sy和sz表示正交方向。方向sy可以解釋為例如基準方向。方向sx可以解釋為例如水平方向,以及方向sz可以解釋為例如垂直方向。
參照圖1b,方向信號svdi1也可以經(jīng)由傳輸路徑400發(fā)送。具體地,方向選擇單元vdi1可以由聽眾a4在系統(tǒng)300的接收端上操作。
方向指示器vdi1可以位于系統(tǒng)300的接收端上,以及方向信號svdi1可以經(jīng)由傳輸路徑400發(fā)送到發(fā)送端,以便控制信號處理單元100。
信號300可以進一步包含用于捕獲與聲源a1,a2,a3相對應的視覺圖像的相機cam1??梢詫⑾鄼Ccam1布置成經(jīng)由傳輸路徑400將圖像信號simg1發(fā)送到接收側(cè)??梢詫⑴c聲源相對應的各自圖像顯示在例如屏幕上(參見圖6)。
信號saudio1,simg1,svdi1也可以經(jīng)由不同傳輸路徑400發(fā)送。例如,視覺圖像信號simg1和經(jīng)過處理的音頻信號saudio1可以經(jīng)由電視廣播網(wǎng)絡發(fā)送,而方向信號svdi1可以經(jīng)由移動電話網(wǎng)絡從遠程聽眾a4發(fā)送到tv演播室。
參照圖2,方向信號svdi1可以例如通過使用注視方向檢測設備來提供。圖2示出了任意眼睛e1的注視方向gzd。通過監(jiān)視注視方向gzd,可以確定眼睛e1看著物體a1、a2還是a3。具體地,該物體可以是聲源。注視方向gzd可以例如通過注視方向gzd與基準方向ref1之間的水平角度α,以及通過注視方向gzd與基準方向ref1之間的垂直角度β來定義?;鶞史较騬ef1可以例如與方向sy對齊。
圖3示出了注視方向檢測設備700。注視方向檢測設備700可以包含一個或多個光源710,720和成像單元730??梢詫⒐庠?10,720布置成發(fā)出光束lb1,lb2。
注視方向檢測設備700可以進一步包含圖像分析單元750,以便根據(jù)成像單元730捕獲的圖像imge1確定注視方向gzd。注視方向檢測設備700可以進一步包含阻尼單元770,以便降低方向信號svdi1的起伏。
光源710,720、圖像分析單元750和/或阻尼單元770也可以是外部組件。例如,也可以將太陽或其它外部基本上點狀的光源用作光源710。
具體地,光源710,720提供的光束lb1,lb2可以基本上準直在眼睛e1的位置,以便有助于精確確定注視方向gzd。
圖4示出了注視方向檢測設備700的成像單元730捕獲的眼睛e1的圖像imge1。從光源710,720發(fā)出的光從眼睛e1的表面反射。因此,圖像imge1可以包含稱為purkinje圖像的一個或多個反射點g1,g2。可以根據(jù)瞳孔p相對于purkinje圖像g1,g2的位置確定水平注視角α和/或垂直注視角β。
兩個或更多個purkinje圖像g1,g2的使用提高了精度,并且可以基本上與眼睛e1和跟蹤設備700之間的距離無關(guān)地作出注視角α和β的確定。但是,在本發(fā)明的一些實施例中,可以容忍較低精確度,并且只使用一個purkinje圖像g1或g2來估計注視角α和β就足夠了。
一些移動電話包含相機單元。如果將信號處理設備布置成根據(jù)所述相機單元所捕獲的圖像imge1確定注視方向,則即使移動電話的相機單元也可以用作注視方向檢測設備700的成像單元。所述移動電話或外部便攜式計算機的信號處理能力可以用于分析注視方向。
參照圖5a,可以將注視方向檢測設備700布置成檢測眼睛e1看著光源a1、a2還是a3的位置。方向選擇單元vdi1可以位于音頻傳輸系統(tǒng)300的發(fā)送端上。方向選擇單元vdi1可以是布置成監(jiān)視用戶a5(圖1)的注視方向的注視方向檢測設備700。
方向選擇單元vdi1或信號處理單元100可以包含阻尼單元770,以便消除方向信號svdi1的快速起伏,因為聽眾a4感受的音像中的快速起伏可能相當令人不悅。例如,可以將方向選擇單元vdi1布置成使得至少在改變方向信號svdi1的值之前的預定時段內(nèi)眼睛e1必須看著新的位置。該預定時段可以是例如10秒??梢詫⑿盘柼幚韱卧?00布置成使得至少在變更濾波單元20的濾波系數(shù)k1,k2,k3的值之前的預定時段內(nèi)眼睛e1必須看著新的位置。
可替代的是,系統(tǒng)300可以包含由若干用戶操作的若干方向選擇單元vdi1,并且可以通過表決確定方向信號svdi1。換句話說,可以將可能方向的總范圍劃分成一組相鄰扇區(qū),并可以對指示每個范圍內(nèi)的方向的方向選擇單元的數(shù)量進行計數(shù)??梢詫⑴c計數(shù)最高的扇區(qū)相對應的方向用于指示所選位置。例如,可以監(jiān)視例如十個參與者的注視方向,并且如果例如其中六個看著某個位置,則可以將信號處理單元100布置成增強源自所述位置的音頻信號。為了監(jiān)視注視方向,如果可以提高足夠高的圖像分辨率,可以由單個相機同時捕獲若干參與者的眼睛的圖像。
參照圖5b,也可以將與聲源a1,a2,a3相對應的視覺圖像img1,img2,img3顯示在屏幕scr1上,并且可以通過注視方向檢測設備700確定注視方向。
參照圖5c,也可以通過虛擬顯示器800顯示與聲源a1,a2,a3相對應的虛擬圖像img1,img2,img3。聽眾a4可以將虛擬顯示器放置在他的眼睛e1附近,從而當虛擬顯示器提供的光入射在他的眼睛上時,他感知到有大虛擬圖像顯示在無限遠距離上的印象。
例如,人可以戴著包含注視方向檢測設備700和虛擬顯示器800的目鏡900。該目鏡可以進一步包含換能器spk1,spk2。
專利公布wo2007/085682和專利申請pct/fi2008/050065公開了適合這種用途的注視方向檢測設備。pct/fi2008/050065還公開了包含注視方向檢測設備和虛擬顯示器的目鏡。
圖6示出了包含第一側(cè)p1、第二側(cè)p2、和數(shù)據(jù)傳輸路徑400的音頻處理系統(tǒng)300。從聲源a1,a2,a3發(fā)出的聲音可以由兩個或更多個麥克風m1,m2,m3捕獲。聲源a1,a2,a3可以是例如會議的參與者。系統(tǒng)300可以是例如遠程會議系統(tǒng)。
可以將信號處理單元100布置成增強源自由方向選擇單元vdi1所指的空間位置的音頻信號。音頻信號saudio1可以經(jīng)由傳輸路徑400發(fā)送到第二側(cè)p2,在該第二側(cè)p2它可以經(jīng)由一個或多個換能器k1,k2再生。
方向指示器vdi1可以位于系統(tǒng)300的第二側(cè)p2。方向指示器vdi1可以是例如布置成根據(jù)聽眾a4的注視方向提供方向信號svdi1的注視方向檢測設備700??梢詫⒎较蛐盘杝vdi1從第二側(cè)p2發(fā)送到第一側(cè)p1,在該第一側(cè)p1它可以耦合到信號處理單元100。
第一側(cè)p1的相機cam1可以捕獲視頻或靜止圖像,并且可以經(jīng)由傳輸路徑400將相應圖像信號simg1發(fā)送到第二側(cè)p2??梢詫⑴c聲源a1,a2,a3相對應的視頻或靜止圖像img1,img2,img3顯示在第二側(cè)p2的屏幕或虛擬顯示器scr1上。
因此,可以將注視方向檢測設備布置成確定聽眾a4是否看著圖像img1,img2,img3,并且可以分別設置音頻增強的方向角α。
系統(tǒng)300可以包含編碼器以便提供例如參數(shù)編碼音頻信號saudio1。音頻信號saudio1可以由第二側(cè)p2的解碼器200解碼并經(jīng)由換能器spk1,spk2再生。
系統(tǒng)300可以進一步包含用于捕獲聽眾a4的圖像的第二相機cam4??梢越?jīng)由傳輸路徑400將相應圖像信號simg4從第二側(cè)p2發(fā)送到第一側(cè)p1??梢詫⒙牨奱4的圖像img4顯示在第一側(cè)p1的屏幕scr1上。
第二相機cam4也可以用作注視方向檢測設備的成像單元。
此外,可以將音頻信號saudio4從第二側(cè)p2發(fā)送到第一側(cè)p1。音頻信號saudio4可以由麥克風m4捕獲并由換能器spk4再生。
參照圖7a,可以將多個麥克風m1,m2,m3布置成作為定向麥克風陣列arr1而操作。定向麥克風陣列arr1的最大靈敏度方向可以通過方向選擇單元vdi1來控制,以便增強源自所選位置的音頻信號。具體地,定向麥克風陣列arr1的最大靈敏度方向可以通過注視方向檢測設備700來控制。
定向麥克風陣列arr1的麥克風也可以是雙耳麥克風。
信號處理單元100可以包含延遲組(delaybank)52和求和單元53。可以將第一麥克風m1捕獲的音頻信號s1延遲第一時段τ1。可以將第二麥克風m2捕獲的音頻信號s2延遲第二時段τ2??梢詫⒌谌溈孙Lm3捕獲的音頻信號s3延遲第三時段τ3??梢詫⒀舆tτ1,τ2,τ3調(diào)整成使得源自所選位置并且由麥克風m1,m2,m3捕獲的音頻信號當它們在求和單元53中組合時處在同相上。延遲的音頻信號可以例如通過求和或求平均來組合。所選位置由方向信號svdi1指示。
定向麥克風陣列arr1可以包含例如兩個或更多個麥克風m1,m2,m3。聲源a1,a2,a3與麥克風m1,m2,m3之間的最小距離l1可以大于麥克風m1,m2,m3之間的最大距離w13。例如,三個或更多個麥克風的使用可以提供改進的方向選擇性。
求和單元53的輸出可以是增強音頻信號senc。如果單聲道聲音可接受,則求和單元53的輸出可以用作經(jīng)由傳輸路徑發(fā)送到系統(tǒng)300的接收側(cè)的信號saudio1。
可以不相對聲源a1,a2,a3移動麥克風m1,m2,m3而改變定向麥克風陣列arr1的最大靈敏度方向。最大靈敏度方向maxd可以例如通過所述方向maxd與基準方向sy之間的角度γ來定義。因此,可以將裝置300布置成使得最大靈敏度的角度γ取決于注視角α。
參照圖7b,可以通過使用波束成形濾波器h1,h2,h3來處理由定向陣列arr1的各個麥克風m1,m2,m3提供的音頻信號s1,s2,s3。
圖7b的陣列arr1的輸出由如下方程給出:
其中,n表示離散時間指數(shù),m表示音頻信號s1,s2,s3的數(shù)量,而l表示波束成形濾波器h1,h2,h3的長度。
如圖7a所示,濾波器h1,h2,h3,...的最平凡選擇是延遲線。在那種情況下,陣列arr1的輸出由如下方程給出:
其中,τ1,τ2,τ3,...表示每個信號s1,s2,s3...的時間延遲。
定向性也可以在子頻帶域中,或例如在dft(離散傅立葉變換)變換域中實現(xiàn)。在那種情況下,每個音頻信號a1,a2,a3的延遲可以是頻率相關(guān)的。
參照圖7c,可以將定向麥克風陣列arr1的輸出與各個麥克風m1,m2,m3的輸出s1,s2,s3一起加權(quán)。具體地,所述各個麥克風m1,m2,m3中的一個或多個可以是所述定向麥克風陣列arr1的一部分。
可以相對各個麥克風的輸出增強定向麥克風陣列arr1的輸出,以便提供增強的音頻信號senc。定向麥克風陣列arr1的輸出和各個麥克風m1,m2,m3的音頻信號s1,s2,s3可以使用各自的濾波器f0,f1,f2,f3來濾波。具體地,可以將定向麥克風陣列arr1的輸出和各個麥克風m1,m2,m3的音頻信號s1,s2,s3乘以各自的濾波系數(shù)k0,k1,k2,k3。
由定向麥克風陣列arr1捕獲的增強的音頻信號senc可以以高比特率發(fā)送,而由各個麥克風m1,m2,m3中的一個或多個捕獲的音頻信號s1,s2,s3可以以較低比特率發(fā)送。
定向麥克風陣列捕獲的音頻信號可以傳達主要音頻信息,例如所說的話或直接從樂器發(fā)出的聲音。各個麥克風捕獲的音頻信號可以傳達在再生聲像時可以利用的次要信息,例如背景噪聲、來自墻壁的回聲或掌聲。
圖8a示出了參數(shù)編碼器30。參數(shù)音頻編碼方法使得能夠?qū)崿F(xiàn)多聲道和空間音頻編碼和表示。可以將原始音頻信號表示成縮混信號ssum以及描述空間聲像的參數(shù)的比特流??s混信號包含數(shù)量減少的聲道。例如,縮混信號可以是單聲道和信號或雙聲道(立體聲)和信號。
參數(shù)可以包含描述例如聲道間水平差(ild)、聲道間時間差(itd)和聲道間相干性(icc)的參數(shù)。
這種類型的編碼方案可以允許多聲道信號的極高效壓縮。而且,給定所提取的空間信息足夠,則可以允許解碼成任何其它空間混合格式,即,用于任何其它揚聲器裝置的任何其它空間混合格式。例如,可以通過例如5.1揚聲器系統(tǒng)來再生利用雙耳麥克風捕獲的音樂或談話。
編碼器30可以包含縮混單元31、單聲道音頻編碼器32、空間分析單元33、參數(shù)編碼器34和位流格式化單元35。具體地,可以將編碼器30布置成提供雙耳線索編碼(bcc)信號saudio1。
對于bcc方法的詳細描述,參考:f.baumgarteandc.faller:"binauralcuecoding-parti:psychoacousticfundamentalsanddesignprinciples";ieeetransactionsonspeechandaudioprocessing,vol.11,no.6,november2003,以及參考:c.fallerandf.baumgarte:"binauralcuecoding-partii:schemesandapplications",ieeetransactionsonspeechandaudioprocessing,vol.11,no.6,november2003。
參照圖8b,空間音頻參數(shù)ild,itd和/或icc也可以從附加麥克風mleft,mright提供的進一步音頻信號sl,sr中確定。換句話說,空間音頻參數(shù)也可以從不用于縮混的信號中確定。
具體地,附加麥克風mleft,mright可以構(gòu)成一組雙耳麥克風??梢詫⒏郊欲溈孙Lmleft,mright附在例如移動電話的不同側(cè)或耳機上。耳機可以由用戶a5佩戴。
參照圖8c,定向麥克風陣列arr1的增強的單聲道輸出senc也可以這樣用作縮混信號ssum,即在那種情況下,不必利用顯示在圖8b中的縮混單元31。
空間音頻參數(shù)ild,itd和/或icc也可以從附加麥克風mleft,mright提供的音頻信號sl,sr中確定。
可替代的是,空間音頻參數(shù)ild,itd和/或icc可以從定向麥克風陣列arr1的各個麥克風m1,m2,m3提供的兩個或更多個音頻信號s1,s2,s3中確定(圖7c)。
聽眾a4感受的聲像可以按照方向信號svdi1來修改。
如在圖1a的上下文中所注意到的那樣,方向信號svdi1也可以發(fā)送給解碼器200以供在再現(xiàn)中利用。
如果在接收端提供方向信號svdi1,則也可以通過使用平移法則在所選方向再現(xiàn)定向麥克風陣列arr1所提供的單聲道增強信號senc。在那種情況下,甚至可以完全省略bcc再現(xiàn),并且用戶可以只專注于捕獲用戶專注的聲源。
參照圖8d,可以在系統(tǒng)300的發(fā)送端中按照方向信號svdi1修改編碼器300提供的空間參數(shù)。因此,即使不經(jīng)由傳輸路徑400發(fā)送方向信號svdi1,也可以調(diào)整再生的聲音的表觀方向。
修改空間音頻參數(shù)使得能夠?qū)崿F(xiàn)再現(xiàn)的兩種不同的可能性,即,可以將聲像再現(xiàn)到所希望的到達方向,或可以將聲像再現(xiàn)到聲像的中心。
在bcc編碼信號saudio1的情況下,例如通過修改聲道間時間差(itd)參數(shù),以及通過修改聲道間水平差(ild)參數(shù),可以調(diào)整再生的聲音的表觀方向。
編碼器30可以進一步包含布置成根據(jù)方向信號svdi1修改參數(shù)ild,itd和/或icc的值的參數(shù)修改單元37。因此,可以將參數(shù)修改單元37布置成從空間分析單元33提供的聲道間水平差參數(shù)ild中計算修改的聲道間水平差參數(shù)ildn??梢詫?shù)修改單元37布置成從空間分析單元33提供的聲道間時間差參數(shù)itd中計算修改的聲道間時間差參數(shù)itdn??梢詫?shù)修改單元37布置成從空間分析單元33提供的聲道間相干性參數(shù)icc中計算修改的聲道間相干性參數(shù)iccn。
與itd參數(shù)相聯(lián)系的時間延遲可以按照如下方程來調(diào)整:
τq,new=τq-τm(3)
其中,τq表示與第q子頻帶相聯(lián)系的聲道間時間差參數(shù)的時域變換,τq,new表示與第q子頻帶相聯(lián)系的新的修改的聲道間時間差參數(shù)的時域變換,并且τm表示與由方向信號svdi1所指的方向相對應的時間延遲。
聲道間水平差(ild)參數(shù)可以通過如下計算增益系數(shù)gleft和gright來修改:
其中,φ表示與方向信號svdi1相對應的方向角,θleft表示與左換能器spk1的角度,并且θright表示與右換能器spk2的角度。如果將換能器的位置選擇成與頭戴麥克風的左聲道和右聲道相對應,則θleft=-π/2和θright=π/2?,F(xiàn)在可以如下修改聲道間水平差(ild)參數(shù):
其中,δlq表示與第q子頻帶相聯(lián)系的聲道間水平差參數(shù),并且δlq,new表示與第q子頻帶相聯(lián)系的新的修改的聲道間水平差參數(shù)。
此外,可以修改聲道間相干性參數(shù)icc。但是,這不是必需的。換句話說,參數(shù)iccn可以等于icc。
現(xiàn)在可以量化和提供修改的參數(shù)ildn和itdn,以便經(jīng)由傳輸路徑400發(fā)送到解碼器200,或可以將它們存儲在例如存儲器中,以便隨后使用或發(fā)送。
在bcc編碼的情況下,可以將編碼器30布置成操作以使得與由方向信號svdi1所指的最重要聲源相對應的聲道間水平差參數(shù)和聲道間時間差參數(shù)基本等于零。與次要聲源相對應的聲道間水平差參數(shù)和聲道間時間差參數(shù)可以分別顯著地偏離零。因此,可以在編碼單元34中通過使用相對粗糙的量化來量化聲道間水平差參數(shù)和/或聲道間時間差參數(shù),而不顯著降低與最相關(guān)聲源相對應的再生音頻信號的質(zhì)量。可以降低與次要聲源相對應的再生音頻信號的質(zhì)量,因為它們是次要的。
經(jīng)過處理的音頻信號saudio1也可以包含描述從聲源a1,a2,a3發(fā)出的每個聲音snd1,snd2,snd3的估計到達方向的參數(shù)。因此,可以用方向信息取代或強化bcc參數(shù)化。例如,可以將縮混信號的每個子頻帶和時間幀與方向參數(shù)dofq相聯(lián)系,并且經(jīng)過處理的音頻信號saudio1可以包含縮混信號以及所確定的方向參數(shù)dofq??s混信號可以是例如音頻信號s1,s2,s3之和。
在定向參數(shù)的情況下,可以將參數(shù)修改單元布置成例如通過如下方程確定修改的方向參數(shù)dofq,new:
dofq,new=dofq-φ(6)
其中,dofq,new表示與第q子頻帶相聯(lián)系的修改的方向參數(shù),dofq表示空間分析單元提供的與第q子頻帶相聯(lián)系的方向參數(shù),并且φ表示與由方向信號svdi1所指的方向相對應的方向角。
經(jīng)過處理的音頻信號saudio1可以包含空間音頻參數(shù)ild,itd,icc和/或dofq。但是,也可以分離地存儲或經(jīng)由傳輸路徑400發(fā)送空間音頻參數(shù)。
參數(shù)ild,itd和/或dofq確定再生聽像中聲源的位置,即,這些參數(shù)確定經(jīng)過處理的音頻信號saudio1的隨后解碼步驟中聲源的位置。
空間音頻參數(shù)ild,itd和/或dofq的修改使得在隨后解碼步驟中可以控制聲源位置。由于修改了空間音頻參數(shù),所以即使在麥克風m1,m2,m3相對于聲源a1,a2,a3保持靜止時,也可以調(diào)整再生聲像中聲源的位置。例如,即使在所選方向發(fā)生變化時,源自所選方向的聲音也可以保持在再生聽像的預定位置上。換句話說,可以將參數(shù)ild,itd調(diào)整成使得當由方向信號svdi1指示所述第一聲源的方向時,源自所述第一聲源a1的第一聲音snd1似乎來自再生聽像的預定位置,而當由方向信號svdi1指示第二聲源的方向時,源自所述第二聲源a2的第二聲音snd2似乎來自再生聽像的同一預定位置。源自所選方向的聲音可以保持在例如再生聽像的中心上。再生聽像也可以例如按照方向信號svdi1而旋轉(zhuǎn)。
取代增強,也可以將由方向指示器vdi1所指的方向用于抑制源自與所述所指方向相對應的位置的音頻信號。因此,可以從經(jīng)由傳輸路徑400發(fā)送的音像中抑制或甚至完全消除源自特定位置的干擾聲音。
可以將信號處理單元100布置成增強源自第一所選位置的聲音或基本上消除源自第二位置的聲音。這些位置通過注視方向檢測設備700指示,并且可以將數(shù)據(jù)處理單元100布置成通過經(jīng)由用戶界面輸入的命令同時考慮第一位置和第二位置。例如,注視方向檢測設備700可以包含“增強”按鈕和“消除”按鈕。如果用戶a4希望增強源自第一方向的聲音,他就可以看著所述第一方向并按下“增強”按鈕。如果用戶a4希望抑制源自第二位置的聲音,他就可以看著所述第二位置并按下“消除”按鈕。
傳輸路徑400可以是例如因特網(wǎng)、無線電鏈路、移動電話網(wǎng)絡或衛(wèi)星通信系統(tǒng)。
可以在再生之前或與再生同時地將音頻信號存儲在存儲器中。
信號處理單元100可以實現(xiàn)在可編程數(shù)據(jù)處理單元中,例如在計算機中。信號處理單元100可以包含計算機可讀介質(zhì)(mem1),該計算機可讀介質(zhì)(mem1)包含當被數(shù)據(jù)處理器執(zhí)行時用于按照上面給出的例子增強和/或抑制聲音的程序代碼。
麥克風m1,m2,m3提供的音頻信號和方向選擇單元vdi1提供的方向信號svdi1可以經(jīng)由一個或多個輸入端in1,in2,in3耦合到數(shù)據(jù)處理單元,并且可以將數(shù)據(jù)處理單元100布置成例如經(jīng)由因特網(wǎng)和/或經(jīng)由移動電話網(wǎng)絡發(fā)送經(jīng)過處理的音頻信號saudio1。
當聲源與麥克風之間的距離l1與麥克風之間的距離w13相比較大時,以及當方向確定單元vdi1與麥克風之間的距離wvm與聲源與麥克風之間的距離l1相比較小時,由方向確定單元vdi1所指的方向與最大靈敏度的方向之間的關(guān)系是無關(guān)緊要的。當注視方向檢測設備被用在定向麥克風附近時,這些條件通常都能滿足。
如果方向檢測單元vdi1與麥克風之間的距離較大,則可以在使用之前初始化信號處理單元100。
該初始化包含找出描述如何可以將方向選擇單元vdi1提供的信號svdi1的值映射到音頻捕獲裝置的最大靈敏度的實際方向或位置的函數(shù)。
數(shù)據(jù)處理單元100可以例如通過校準來初始化。例如,在方向選擇單元vdi1總是跟隨測試聲源的位置的同時,在房間中或在電視演播室中移動所述聲源。可以將數(shù)據(jù)處理單元布置成根據(jù)校準確定和存儲濾波單元20的系數(shù)和/或延遲組52的延遲的值,從而在每種情況下都可以將最大靈敏度的方向與由方向選擇單元vdi1所指的方向相聯(lián)系。
可替代地,可以通過包含如下的方法初始化信號處理單元100:
-從聲源發(fā)出聲音;
-改變麥克風陣列的最大靈敏度的位置;
-看著所述聲源或與所述聲源相對應的圖像;以及
-當所述聲源的再生聲音的強度達到最大時,經(jīng)由用戶界面向信號處理單元100發(fā)送命令。
例如,在掃描定向麥克風陣列arr1的靈敏度方向的同時,可以請參與者a2講話。在將注視方向檢測設備700布置成監(jiān)視觀眾a4的注視方向的同時,聽眾a4可以看著參與者a2或所述參與者的所顯示圖像。當參與者a2的聲音似乎達到最響音量時,聽眾可以按下校準按鈕。為了完全校準,也可以對參與者a1和參與者a3重復相同過程。
可替代地,可以經(jīng)由鍵盤或圖形用戶界面將麥克風m1,m2,m3的位置、聲源a1,a2,a3的估計位置、方向選擇單元vdi1的位置、和方向選擇單元vdi1的基準方向輸入到數(shù)據(jù)處理單元中??梢詫?shù)據(jù)處理單元布置成根據(jù)所述位置而為由方向選擇單元vdi1所指的每個方向計算濾波單元20的系數(shù)和/或延遲組52的延遲。
在一個實施例中,甚至不必在系統(tǒng)300的接收端上向聽眾a4顯示視覺圖像。聽眾a4可以例如根據(jù)再生聽像而檢測最感興趣聲源處在聽像的左部、中部還是右部。因此,聽眾a4可以操作方向指示器vdi1,從而選擇最感興趣聲源的位置。
如果需要的話,所發(fā)送的信號可以在系統(tǒng)300的發(fā)送端上多路復用并且在系統(tǒng)300的接收端解多路復用。系統(tǒng)300可以包括兩個或更多個換能器spk1,spk2以便再生音像。
如果需要的話,也可以在系統(tǒng)300的接收端上濾波解碼音頻信號,以便恢復增強音頻信號相對于其它音頻信號的電平。解碼器200可以包含濾波器組(未示出)。例如,如果已經(jīng)通過使用濾波器f2在發(fā)送端提高了音頻信號s2的電平,則可以在接收端抑制相應的解碼音頻信號。因此,在換能器spk1,spk2再生的聲音的聲級分布可以基本上對應于原始聲音snd1,snd2,snd3的聲級分布的同時,可以為源自最相關(guān)方向的音頻信號分配較高比特率。例如,可以根據(jù)方向信號svdi1在接收端確定新的濾波系數(shù)組??商娲兀梢越?jīng)由傳輸路徑400將濾波系數(shù)k1,k2,k3的值從信號處理單元100發(fā)送到解碼器200,在其中可以將解碼音頻信號乘以例如倒數(shù)值1/k1,1/k2,1/k3,以便恢復不同音頻聲道之間的原始聲級分布。
系統(tǒng)300可以包含用于確定方向確定單元vdi1的絕對位置的位置檢測單元。例如,方向確定單元vdi1可以包含gps導航器(全球定位系統(tǒng))。此外,可以將方向確定單元vdi1的位置存儲在存儲器中或經(jīng)由傳輸路徑400發(fā)送。
進一步的實施例可以有助于將發(fā)聲物體與它們的物理位置相聯(lián)系,即使當從一定距離記錄它們時。
圖9示出了根據(jù)聽眾a4的位置和取向創(chuàng)建到所述聽眾a4的虛擬聲場。聲源a2可以位于坐標(x2,y2)上。用戶a5可以操作坐標(x5,y5)上的方向檢測單元vdi1。聽眾a4可以位于坐標(x4,y4)上。坐標(x4,y4)和坐標(x5,y5)可以例如通過用戶a5和聽眾攜帶的衛(wèi)星導航設備確定。聽眾a4的取向角δ1可以通過例如磁羅盤確定。
用戶a5可以操作方向檢測單元vdi1,從而知道聲源a2相對基準方向(例如,方向sy)的方向角α。
在一些實施例中,聲源a2相對基準方向的方向角α也可以通過對第一角和第二角求和來確定。所述第一角可以例如通過羅盤確定,而所述第二角可以例如通過方向檢測單元vdi1確定。
因此,可以根據(jù)坐標(x5,y5),根據(jù)方向角α,并且根據(jù)用戶a5與聲源a2之間的距離估計聲源a2的坐標(x2,y2)。該距離可以被估計和輸入到信號處理設備中。
方向檢測單元vdi1也可以包含用以監(jiān)視用戶a5的兩只眼睛的注視方向的兩個注視方向檢測單元,即,注視方向檢測設備可以是立體的。用戶a5與聲源a2之間的距離可以從立體注視方向檢測設備提供的信號中確定。
從聲源a2發(fā)出的聲音可以被捕獲,編碼,以及發(fā)送到聽眾a4的解碼器200,從而可以經(jīng)由換能器spk1,spk2再生聲源a2的聲音。具體地,聽眾a4可以佩戴耳機spk1,spk2。
聲源a2的估計坐標可以作為輔助信息發(fā)送給聽眾a4的解碼器200。聲源a2相對于聽眾a4的取向的方向角δ2可以根據(jù)聽眾的取向角δ1以及根據(jù)坐標(x2,y2)和(x4,y4)來確定。
現(xiàn)在可以通過將角度δ2用作到達角度而再現(xiàn)經(jīng)過處理的音頻信號saudio1,來為聽眾a4創(chuàng)建虛擬聲場。
聽眾a4可以物理地存在于坐標(x4,y4)上,其中聲像可以由被經(jīng)由傳輸路徑發(fā)送的聲音加強了的實際環(huán)境聲音形成。
即使真實聲源未激活,也可以通過將虛擬發(fā)聲體加在真實聲源的實際位置上而加強聽眾a4感受的聲場。換句話說,可以將換能器spk1,spk2布置成再生以前記錄的聲音。
聽眾a4與聲源a2之間的距離可以用于控制再現(xiàn)聲音的音量。因此,如果當記錄聲音時聽眾a4比用戶a5更遠離聲源a2,則聽眾a4可能聽到音量比用戶a5原始聽到的音量低的聲音。
按照所檢測注視方向的聲源增強可以用在tv或電臺播音室中,以便迅速地為有限帶寬傳輸選擇最相關(guān)聲源。
按照所檢測注視方向的聲源增強可以應用于例如電話、音頻共享或自由視點視頻服務。所述服務可以例如經(jīng)由因特網(wǎng)或經(jīng)由移動電話網(wǎng)絡提供。
對于本領域的技術(shù)人員來說,能夠想到可以對按照本發(fā)明的設備和方法加以修改和改變。上面參考附圖所述的特定實施例只是例示性的,而不是意圖限制由所附權(quán)利要求書限定的本發(fā)明的范圍。