專利名稱:用于捕獲和呈現(xiàn)多個(gè)音頻聲道的裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于音頻捕獲和音頻呈現(xiàn)的裝置,并且更具體但不排他地,涉及通過 分組交換網(wǎng)絡(luò)傳輸實(shí)時(shí)多媒體。
背景技術(shù):
多種成束(beam forming)方法是已知的,其用于估計(jì)音頻信號到達(dá)方向,以及通 過對麥克風(fēng)陣列的輸出進(jìn)行適當(dāng)加權(quán)而集中到某個(gè)方向。這些方法的應(yīng)用范圍從水下音頻 監(jiān)控到移動電話中有源噪聲消除。為了在成束方法中使用,麥克風(fēng)陣列需要仔細(xì)組裝,特別是麥克風(fēng)的相對位置,因 為成束功能依賴于感測器輸出中的相位差。此外,為了能夠利用相位差,麥克風(fēng)的距離受到 所接收音頻信號波長的限制,即,感測器之間的距離必須小于波長的一半。典型的成束麥克風(fēng)陣列的輸出是單聲道信號。每個(gè)個(gè)體感測器的輸出在根據(jù)成束 目的而被適當(dāng)加權(quán)和延遲之后相加在一起。因此,在成束之后不存在可用的多聲道音頻,因 為輸出是由單聲道音頻和對應(yīng)于麥克風(fēng)陣列設(shè)置的到達(dá)方向構(gòu)成的。因此,在接收實(shí)體處 不可能對音頻場景進(jìn)行包括進(jìn)一步分析或開發(fā)在內(nèi)的任何后處理?,F(xiàn)有的方向選擇性錄制的執(zhí)行通常是通過使用應(yīng)用于關(guān)系緊密的麥克風(fēng)的已知 麥克風(fēng)陣列的輸出的成束技術(shù),或者使用選自覆蓋感興趣音頻場景的麥克風(fēng)網(wǎng)格的大型麥 克風(fēng)陣列。源選擇和源追蹤可以使用成束來進(jìn)行。例如,高保真環(huán)繞聲(Ambisonic)技術(shù)需 要良好定義的麥克風(fēng)設(shè)置,其使用例如一致的麥克風(fēng)設(shè)置以用于創(chuàng)建關(guān)于所捕獲音頻的方 向信息。感測器陣列或矩陣可以在自組織網(wǎng)絡(luò)(例如,移動電話的網(wǎng)絡(luò))的基礎(chǔ)上形成。在 這種布置中,感測器位置并非已知的,而這可能對成束算法造成困難。然而,每個(gè)感測器的 定位信息(如果可用的話)可被附加至每個(gè)聲道,以便在接收終端中進(jìn)一步分析。為了生 成多聲道音頻表征,還需要麥克風(fēng)定位信息。即,將音頻內(nèi)容置于各個(gè)揚(yáng)聲器配置上需要關(guān) 于聲源預(yù)期定位的知識。當(dāng)音頻源之間存在關(guān)聯(lián)時(shí)尤其如此。MPEG標(biāo)準(zhǔn)體正在研究基于對象的音頻編碼?;趯ο蟮囊纛l編碼的目的與傳統(tǒng)環(huán) 繞聲音頻編碼類似。然而,基于對象的編碼器接收個(gè)體輸入信號(或?qū)ο?,并生成一個(gè)或 多個(gè)縮混(down mix)信號和側(cè)信息(side information)的流。在接收側(cè),解碼器產(chǎn)生一 組對象輸出,其被傳遞至混頻器/呈現(xiàn)級,該混頻器/呈現(xiàn)級生成針對期待數(shù)目的輸出聲道 和揚(yáng)聲器設(shè)備的輸出。此混頻器/呈現(xiàn)器的參數(shù)因用戶輸入而變化,并且由此支持實(shí)時(shí)交 互式音頻構(gòu)成。在基于對象的音頻編碼中所使用的音頻對象可以是基于用戶偏好的音頻場景中 的定位。圖1給出了基于對象的編碼器架構(gòu)。在圖1所示架構(gòu)中,多聲道/對象編碼器2 接收多個(gè)輸入音頻聲道/對象信號,并編碼該信號以供傳輸。在多聲道/對象解碼器4處 接收經(jīng)編碼的信號,將所接收信號解碼成原始輸入音頻聲道/對象信號。混頻器/呈現(xiàn)器6從解碼器4接收經(jīng)解碼的音頻聲道/對象,并且還接收用戶交互信號8?;祛l器/呈現(xiàn)器 根據(jù)經(jīng)解碼的音頻聲道/對象和用戶輸入8來生成多個(gè)輸出音頻聲道/對象。輸出音頻聲道/對象的數(shù)目未必與輸入聲道/對象的數(shù)目相同。例如,混頻器/ 呈現(xiàn)器6的輸出可以用于從立體聲到N聲道輸出的任何揚(yáng)聲器輸出配置。此外,輸出可以 呈現(xiàn)為雙耳格式,以供耳機(jī)收聽。與基于對象的音頻編碼有關(guān)的、稱為個(gè)性化音頻服務(wù)(PAS)的概念已被提出以用 于基于對象的音頻處理。在傳統(tǒng)多聲道音頻應(yīng)用中,僅為用戶提供了單個(gè)預(yù)先安排的音頻 場景。因此,無法自由控制音頻表征。然而,PAS概念遞送非捆綁的音頻對象,通過應(yīng)用用 戶交互或控制信號,這些對象可以用來創(chuàng)建個(gè)性化的聲音場景。這意味著用戶能夠控制音 頻對象的屬性(諸如,音量、方向和距離),以便根據(jù)自己的需求創(chuàng)建自己的音頻場景。PAS 系統(tǒng)的主要目標(biāo)是用于廣播服務(wù)。PAS概念所考慮的又一場景是提供用戶偏好和音頻控制 的交互性。圖2給出了具有獨(dú)立音頻對象以供自由呈現(xiàn)的PAS概念。與圖1架構(gòu)的相似性在 圖2所示的PAS概念中是明顯的。在編碼器2中,對覆蓋音頻場景的多個(gè)音頻聲道或?qū)ο?進(jìn)行編碼以供傳輸。所傳輸?shù)男盘栐诮獯a器4處被接收,并且被解碼為組成音頻聲道/對 象。繼而,根據(jù)解碼的音頻聲道/對象和用戶交互8來呈現(xiàn)期待的音頻場景。用戶可以能夠控制3D空間信息(諸如,定位和強(qiáng)度等)。另外,用戶可以在若干可 用3D場景中進(jìn)行選擇。然而,在圖1和圖2中每個(gè)架構(gòu)的情況中,需要發(fā)送將要再現(xiàn)的音頻場景中的每個(gè) 音頻對象的有關(guān)信息。即使對象未在根據(jù)用戶偏好的最終音頻場景呈現(xiàn)中使用也是如此。 此外,將個(gè)體對象從音頻場景隔離需要使用方向性成束技術(shù),并且由此對用以監(jiān)測原始音 頻場景的麥克風(fēng)布置施加了嚴(yán)格的限制。這還意味著,麥克風(fēng)的自組織網(wǎng)絡(luò)無法與圖1和 圖2的架構(gòu)結(jié)合使用。本發(fā)明一些實(shí)施方式的目的在于解決或者至少緩解這些問題中的一些。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提供一種方法,包括從多個(gè)音頻源選擇音頻源子集;向 裝置傳輸來自選擇的所述音頻源子集的信號;其中所述音頻源子集根據(jù)由所述裝置提供的 信息來選擇。根據(jù)一個(gè)實(shí)施方式,該方法可以進(jìn)一步包括在傳輸之前,對來自所述音頻源子集 的信號進(jìn)行編碼。所述多個(gè)音頻源可以包括麥克風(fēng)柵格中的多個(gè)麥克風(fēng),或者包括適合于 成束的麥克風(fēng)陣列。所述裝置提供的信息包括虛擬收聽者坐標(biāo),或者音頻源選擇信息。該 方法可以進(jìn)一步包括向所述裝置提供與所述多個(gè)音頻源有關(guān)的配置信息。所述裝置提供 的所述信息基于與所述多個(gè)音頻源有關(guān)的配置信息而生成。所述配置信息可以包括與所述 音頻源有關(guān)的相對位置信息。所述配置信息可以包括與所述音頻源有關(guān)的定向信息。根據(jù)本發(fā)明的又一方面,提供一種方法,包括生成與來自多個(gè)音頻源的期待音頻 源子集有關(guān)的信息;向裝置提供所述信息;以及接收由所述裝置傳輸?shù)男盘?。根?jù)本發(fā)明的一個(gè)實(shí)施方式,所公開的方法可以進(jìn)一步包括解碼所述接收的信 號,以合成與所述期待音頻源子集有關(guān)的多個(gè)音頻聲道。該方法可以進(jìn)一步包括呈現(xiàn)所述合成的音頻聲道,以提供期待的音頻場景。與期待的音頻源子集有關(guān)的所述信息可以包括 虛擬收聽者坐標(biāo),或者可以包括音頻源選擇信息。該方法可以進(jìn)一步包括接收與所述多個(gè) 音頻源的配置有關(guān)的配置信息。與期待的音頻源子集有關(guān)的所述信息可以根據(jù)所述配置信 息而生成。所述配置信息包括與所述音頻源有關(guān)的相對位置信息。所述配置信息可以包括 與所述音頻源有關(guān)的定向信息。呈現(xiàn)所述合成的音頻聲道可以進(jìn)一步包括根據(jù)與所述多 個(gè)音頻源有關(guān)的所述配置信息,呈現(xiàn)所述合成的信號以提供期待的音頻場景。根據(jù)本發(fā)明又一方面,提供一種裝置,包括音頻源選擇器,配置用于根據(jù)另一裝 置提供的信息來選擇多個(gè)音頻源的子集;以及編碼器,配置用于對來自所述音頻源子集的 信號進(jìn)行編碼,并向所述另一設(shè)備傳輸所述編碼信號。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,所述多個(gè)音頻源可以包括麥克風(fēng)柵格中的多個(gè)麥克 風(fēng),或者所述多個(gè)音頻源可以包括適合于成束的麥克風(fēng)陣列。所述另一裝置提供的所述信 息可以包括虛擬收聽者坐標(biāo),或者可以包括音頻源選擇信息。該裝置可以進(jìn)一步包括提供 單元,配置用于向所述另一裝置提供與所述多個(gè)音頻源有關(guān)的配置信息。所述配置信息可 以包括與所述音頻源有關(guān)的相對位置信息。所述配置信息可以包括與所述音頻源有關(guān)的定 向信息。根據(jù)本發(fā)明的另一方面,提供一種裝置,包括控制器,配置用于向另一裝置提供 與期待的音頻場景有關(guān)的信息;以及解碼器,配置用于從所述另一裝置接收編碼的信號,并 解碼該信號。根據(jù)本發(fā)明一個(gè)實(shí)施方式,該裝置可以進(jìn)一步包括呈現(xiàn)器,配置用于從所述解碼 器接收解碼的信號;以及其中所述控制器進(jìn)一步配置用于向所述呈現(xiàn)器提供控制信號;所 述呈現(xiàn)器進(jìn)一步配置用于根據(jù)所述解碼的信號和所述控制信號來生成期待的音頻場景。與 期待的音頻源子集有關(guān)的所述信息可以包括虛擬收聽者坐標(biāo)或音頻源選擇信息。所述控制 器可以進(jìn)一步配置用于接收與所述多個(gè)音頻源的配置有關(guān)的配置信息。所述配置信息可以 包括與所述音頻源有關(guān)的相對位置信息。所述配置信息可以包括與所述音頻源有關(guān)的定向 fn息ο根據(jù)本發(fā)明的又一方面,提供一種設(shè)備,包括控制裝置,用于向另一設(shè)備提供與 期待的音頻場景有關(guān)的信息;以及解碼裝置,用于從所述另一設(shè)備接收編碼的信號,以及解 碼所述信號。根據(jù)本發(fā)明的又一方面,提供一種設(shè)備,包括選擇裝置,用于根據(jù)另一設(shè)備提供 的信息來選擇多個(gè)音頻源的子集;以及編碼裝置,用于對來自所述音頻源子集的信號進(jìn)行 編碼,以及用于向所述另一設(shè)備傳輸所述編碼的信號。根據(jù)本發(fā)明的又一方面,提供了一種計(jì)算機(jī)程序代碼裝置,當(dāng)該程序運(yùn)行在處理 器上時(shí),適用于執(zhí)行所公開方法的任何步驟。根據(jù)本發(fā)明的又一方面,提供了一種電子設(shè)備,或包括所公開裝置的芯片集。
現(xiàn)在將參考附圖,僅通過示例方式來描述本發(fā)明的實(shí)施方式,其中圖1示出了現(xiàn)有技術(shù)中基于對象的音頻編碼和呈現(xiàn)系統(tǒng);圖2示出了現(xiàn)有技術(shù)中實(shí)現(xiàn)個(gè)性化音頻服務(wù)概念的系統(tǒng);
圖3示出了適用于實(shí)現(xiàn)本發(fā)明元素的用戶設(shè)備;圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的具有收聽者的虛擬路徑的麥克風(fēng)柵格;圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的用于在麥克風(fēng)柵格中選擇麥克風(fēng)的系統(tǒng);圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的具有針對聲道/對象選擇的反饋循環(huán)的基 于多聲道/對象的音頻編碼系統(tǒng);以及圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的方法。
具體實(shí)施例方式通過特定示例并具體參考優(yōu)選實(shí)施方式,在此描述本發(fā)明的實(shí)施方式。本領(lǐng)域技 術(shù)人員應(yīng)當(dāng)理解,本發(fā)明不限于此處給出的特定實(shí)施方式的細(xì)節(jié)。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,可以使用選擇性多聲道音頻編碼來傳輸來自任意感 測器配置的多聲道音頻信息??梢赃x擇由麥克風(fēng)陣列或柵格提供的多個(gè)輸入聲道的子集, 其后,可以使用例如BCC編碼、MPEG空間音頻編碼器(SAC)(也稱為MPS)、基于MPEG空間對 象的音頻編碼器(SAOC)或方向性音頻編碼(DirAC)來編碼信號。根據(jù)本發(fā)明的一個(gè)實(shí)施 方式,只可以選擇兩個(gè)聲道,從而允許使用更直接的立體聲編碼。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,為了有效地編碼多聲道內(nèi)容,可以提供描述麥克風(fēng) 陣列中的麥克風(fēng)的相對位置的信息。此外,關(guān)于音頻源的信息(諸如,相對位置)可以在生 成音頻內(nèi)容的表征時(shí)使用。例如,使用任意揚(yáng)聲器配置(諸如,5. 1)的音頻場景表征可以要求將音頻源放置 到話筒位置。當(dāng)收聽者相對于麥克風(fēng)位置的方位已知時(shí),源可以置于任何任意揚(yáng)聲器配置 上。備選地,可以支持具有雙耳表征的耳機(jī)收聽。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,與麥克風(fēng)配置有關(guān)的信息(例如,相對位置和定向) 可以在確定和控制收聽者在音頻場景中的期待位置時(shí)使用。在一個(gè)示例實(shí)施方式中,麥克 風(fēng)網(wǎng)絡(luò)的布局可以隨時(shí)間改變。為了允許這種改變,可能需要以足夠的速率更新配置信息, 從而允許對捕獲布局的動態(tài)屬性進(jìn)行管理。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,可以使用按照任意布置來布置的麥克風(fēng)陣列或柵格 來捕獲音頻場景。由于感興趣的點(diǎn)可以利用多個(gè)麥克風(fēng)來覆蓋,所以可以通過使用成束技 術(shù)或者通過多麥克風(fēng)錄制來開發(fā)音頻場景。如前所述,在使用成束技術(shù)時(shí),需要對麥克風(fēng)陣 列進(jìn)行良好定義,并且針對麥克風(fēng)之間的距離存在嚴(yán)格的要求。根據(jù)一個(gè)示例實(shí)施方式,與 成束有關(guān)的處理可以基于用戶控制在接收方處執(zhí)行,其中所需的麥克風(fēng)數(shù)據(jù)被提供給接收 方以在成束計(jì)算中使用。首先參考圖3,其示出了示例性電子設(shè)備10的示意框圖,其可以包含根據(jù)本發(fā)明 一個(gè)實(shí)施方式的編解碼器。電子設(shè)備10例如可以是無線通信系統(tǒng)的移動終端或用戶設(shè)備。電子設(shè)備10包括麥克風(fēng)11,其經(jīng)由模數(shù)轉(zhuǎn)換器14鏈接到處理器21。處理器21 進(jìn)一步經(jīng)由數(shù)模轉(zhuǎn)換器32鏈接到揚(yáng)聲器33。處理器21進(jìn)一步鏈接到收發(fā)機(jī)(TX/RX) 13、 用戶接口(UI) 15和存儲器22。處理器21可以配置用于執(zhí)行各種程序代碼。所實(shí)現(xiàn)的程序代碼可以包括音頻解 碼代碼和混頻器/呈現(xiàn)代碼。所實(shí)現(xiàn)的程序代碼23可以例如存儲在存儲器22中,以在需 要的時(shí)候由處理器21獲取。存儲器22可以進(jìn)一步提供用于存儲數(shù)據(jù)(例如,已經(jīng)根據(jù)本
8發(fā)明編碼的數(shù)據(jù))的部分24。所實(shí)現(xiàn)的程序代碼可以在本發(fā)明的實(shí)施方式中以硬件或固件 實(shí)現(xiàn)。 用戶接口 15支持用戶例如經(jīng)由鍵盤向電子設(shè)備10輸入命令,和/或例如經(jīng)由顯 示器從電子設(shè)備10獲得信息。收發(fā)機(jī)13支持例如經(jīng)由無線通信網(wǎng)絡(luò)與其他電子設(shè)備的通還應(yīng)當(dāng)理解,電子設(shè)備10的結(jié)構(gòu)可以以各種方式進(jìn)行補(bǔ)充和改變。圖4示出了麥克風(fēng)的確定性柵格9,其在本發(fā)明的一個(gè)實(shí)施方式中可以用于放置 在感興趣的區(qū)域周圍。麥克風(fēng)柵格覆蓋的區(qū)域可以例如通過在空間周圍移動虛擬收聽者位 置12來確定。利用與麥克風(fēng)配置有關(guān)的信息(諸如,麥克風(fēng)相對于期 待的收聽者位置的位 置),可以通過選擇相關(guān)麥克風(fēng)而將虛擬收聽者放置在麥克風(fēng)陣列覆蓋的區(qū)域中。圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的麥克風(fēng)選擇例程。在接收方實(shí)體中提供多 視點(diǎn)(multiview)控制器16 (或簡稱控制器)。與麥克風(fēng)配置有關(guān)的信息19通過麥克風(fēng)配 置存儲18被提供給多視點(diǎn)控制器16。多視點(diǎn)控制器可以使用麥克風(fēng)配置信息19來確定期 待的虛擬收聽者位置12以及與麥克風(fēng)配置9有關(guān)的定向信息,并且還可以在動態(tài)呈現(xiàn)音頻 場景情況下確定虛擬收聽者位置12的移動。多視點(diǎn)控制器16向音頻捕獲實(shí)體中的麥克風(fēng) 選擇器14提供虛擬收聽者位置信息20。收聽者位置可以使用麥克風(fēng)柵格/網(wǎng)格配置和定位信息來確定。配置和定位信息 僅需傳輸一次。當(dāng)然,對于動態(tài)配置,需要在信息改變時(shí)進(jìn)行更新。由此,基于由多視點(diǎn)控制器16提供的虛擬收聽者坐標(biāo)20,并且還基于麥克風(fēng)配置 信息,可以選擇麥克風(fēng)柵格10的麥克風(fēng)子集以提供所需音頻信息,以便生成期待的音頻場 景。麥克風(fēng)選擇器14可以被視為音頻源選擇器,因?yàn)槠渫ǔH缦挛乃荆慌渲糜糜谶x擇 在此示例中表示為麥克風(fēng)源的多個(gè)音頻源的子集。用戶不需要知道麥克風(fēng)配置。位置、移動和定向的控制可以僅基于(先驗(yàn))已知 的或設(shè)想的音頻場景來完成。備選地,用戶可能希望基于已知的音頻場景或感興趣的定位 來選擇絕對位置、定向或移動軌跡。在這種情況下,用戶可能需要知道空間和可用的多視點(diǎn) 布局。用戶可以將任何這種期待的位置等提供給多視點(diǎn)控制器16,其繼而提供所需的控制 和配置信號,以允許呈現(xiàn)期待的音頻場景。此外,根據(jù)本發(fā)明的一個(gè)實(shí)施方式,可以基于接收方實(shí)體提供的信息,在捕獲實(shí)體 的遠(yuǎn)端或本地控制要監(jiān)測的多個(gè)麥克風(fēng)。對所捕獲音頻場景的“廣度(wideness) ”的選擇 可以基于音頻特性或音頻內(nèi)容。例如,可能期待利用多個(gè)麥克風(fēng)來捕獲周圍的噪音。另外, 多個(gè)麥克風(fēng)可以用于稍后在接收實(shí)體中基于接收的多聲道內(nèi)容來支持成束功能。而且,在 感興趣的區(qū)域中存在若干不同音頻源的情況下,利用多個(gè)麥克風(fēng)(即,輸入聲道)是有益 的。圖6給出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的多視點(diǎn)音頻捕獲、編碼、傳輸、呈現(xiàn)和控制 架構(gòu)。如上文針對圖5所述,由麥克風(fēng)選擇實(shí)體14基于接收方實(shí)體中的多視點(diǎn)控制器16所 提供的聲道/對象選擇信號來從麥克風(fēng)柵格9中選擇麥克風(fēng)(音頻源)的子集。繼而,將來 自麥克風(fēng)的選定子集的捕獲音頻提供給編碼器2。捕獲的音頻信號可以由編碼器2使用任 何多聲道音頻編碼機(jī)制來編碼,以便壓縮信號以供傳輸。例如,可以應(yīng)用MPEG環(huán)繞、SA0C、 DirAC乃至傳統(tǒng)立體聲編解碼器(僅在選擇兩個(gè)聲道的情況下)。也可以利用單聲道編解碼器或多個(gè)單聲道、立體聲和多聲道編解碼器對一個(gè)或多個(gè)離散輸入聲道進(jìn)行編碼。相應(yīng)的解碼器4從所傳輸?shù)男盘柡铣啥嗦暤纼?nèi)容,以用于呈現(xiàn)目的。
解碼器提供的已解碼多聲道內(nèi)容被應(yīng)用至混頻器/呈現(xiàn)器6?;祛l器/呈現(xiàn)器可 以基于解碼的音頻聲道和多視點(diǎn)控制16提供的交互/控制信號來呈現(xiàn)需要的音頻場景。音 頻混頻器/呈現(xiàn)器6的輸出可以是多聲道揚(yáng)聲器布局(諸如在家庭影院中使用的傳統(tǒng)5. 1 配置);或者備選地,在以立體聲或雙耳格式呈現(xiàn)內(nèi)容的情況下,音頻場景可以使用耳機(jī)來 提供。如果僅跟蹤一個(gè)輸入聲道,或者成束被作為混頻器/呈現(xiàn)器6中的后處理操作來執(zhí) 行,則輸出聲道的數(shù)目可以限于1。解碼器4之后的呈現(xiàn)器6可以能夠以如下方式來執(zhí)行成束(如果滿足了麥克風(fēng)定 位的需要的話)和/或源的放置,即,收聽者被置于相對于麥克風(fēng)位置的期待位置中。圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的方法。該方法包括在Sl中提供與音頻源 (例如,麥克風(fēng))有關(guān)的信息,該信息在S2中在接收方實(shí)體處被接收。該信息繼而可以在S3 中用以在接收方實(shí)體中生成虛擬收聽者坐標(biāo),其描述所監(jiān)測的音頻場景中虛擬收聽者的期 待位置和定向。在其他實(shí)施方式中,虛擬收聽者坐標(biāo)可以由與來自可用音頻源集合的期待 音頻源子集有關(guān)的、某些其他形式的生成信息來替換。虛擬收聽者坐標(biāo)或生成的信息繼而 在步驟S4中被提供給捕獲實(shí)體。虛擬收聽者坐標(biāo)(或生成的信息)和與音頻源配置有關(guān) 的信息繼而可以在步驟S5中用來選擇將要向接收方提供的可用音頻聲道子集。在S6中, 對音頻聲道的選定子集進(jìn)行編碼,以便傳輸至接收方。在S7中,在接收方實(shí)體處接收所傳 輸?shù)木幋a信號并對其進(jìn)行解碼,并且已解碼信號繼而可以用于在接收方處呈現(xiàn)或合成期待 的音頻場景?;诮獯a的和呈現(xiàn)的音頻場景,用戶可以通過在S4中改變虛擬收聽者位置和定 向來與系統(tǒng)進(jìn)行交互,以及隨后影響S5中對麥克風(fēng)柵格中的音頻聲道的選擇。此外,系統(tǒng) 可以基于獲取的音頻場景來自動地調(diào)整位置和定向,以例如更好地選擇用于成束的麥克風(fēng) 配置。本發(fā)明的實(shí)施方式可以提供以下一個(gè)或多個(gè)優(yōu)點(diǎn) 在接收端處可以向多聲道音頻應(yīng)用任何期待的音頻處理,諸如成束。由此,可以 在音頻內(nèi)容上創(chuàng)建若干視點(diǎn)。 多聲道和環(huán)繞音頻編碼支持選定音頻內(nèi)容的低比特速率傳輸。此外,可以基于
用戶需求或者感興趣的地點(diǎn)處存在的音頻條件和內(nèi)容,來選擇要包括在傳輸中的聲道數(shù) 目。特別地,與現(xiàn)有技術(shù)的PAS (個(gè)性化音頻服務(wù))概念相比,本發(fā)明的某些實(shí)施方式 允許顯著減少在捕獲實(shí)體和接收方實(shí)體之間傳輸?shù)臄?shù)據(jù)量,因?yàn)閮H需要傳輸接收方實(shí)體呈 現(xiàn)期待音頻場景所需要的那些信號。所描述的實(shí)施方式可以應(yīng)用于遠(yuǎn)程在線和“分享所見(seeihat-1-see) ”服務(wù),從 而允許在接收方實(shí)體處重現(xiàn)音頻場景。本發(fā)明的實(shí)施方式可以涉及語音和音頻編碼、媒體 適配、通過分組交換網(wǎng)絡(luò)的實(shí)時(shí)多媒體傳輸(例如,IP語音)。根據(jù)本發(fā)明的一些實(shí)施方式,接收方實(shí)體可以包括移動網(wǎng)絡(luò)中的用戶設(shè)備。此外, 所述麥克風(fēng)柵格可以包括覆蓋感興趣區(qū)域的任何已知類型音頻源的任意柵格。麥克風(fēng)柵格 的相對位置信息可以是預(yù)先配置的,或者可以例如使用GPS實(shí)時(shí)生成。
應(yīng)當(dāng)理解,術(shù)語“用戶設(shè)備”意在覆蓋任何適當(dāng)類型的無線用戶設(shè)備,諸如移動電 話、便攜式數(shù)據(jù)處理設(shè)備或便攜式web瀏覽器。一般地,本發(fā)明的各種實(shí)施方式可以以硬件或?qū)S秒娐?、軟件、邏輯或其任何組合 實(shí)現(xiàn)。例如,某些方面可以以硬件實(shí)現(xiàn),而其他方面可以以控制器、微處理器或其他計(jì)算設(shè) 備可以執(zhí)行的固件或軟件執(zhí)行,盡管本發(fā)明不限于此。盡管將本發(fā)明的各種方面示出和描 述為框圖、流程圖或使用某些其他圖形表征,但是應(yīng)當(dāng)理解,在此描述的這些框、裝置、系 統(tǒng)、技術(shù)或方法可以以硬件、軟件、固件、專用電路或邏輯、通用硬件或控制器或其他計(jì)算設(shè) 備,或其某些組合(作為非限制示例)實(shí)現(xiàn)。例如,本發(fā)明的實(shí)施方式可以實(shí)現(xiàn)為芯片集,換言之,實(shí)現(xiàn)為彼此通信的一系列集 成電路。芯片集可以包括被布置以運(yùn)行代碼的微處理器、專用集成電路(ASIC)或用于執(zhí)行 上述操作的可編程數(shù)字信號處理器。本發(fā)明的實(shí)施方式可以由移動設(shè)備的數(shù)據(jù)處理器(諸如,處理器實(shí)體中的)可執(zhí) 行的計(jì)算機(jī)軟件來實(shí)現(xiàn),或者由硬件或硬件和軟件的組合來實(shí)現(xiàn)。此外,就這一點(diǎn),應(yīng)當(dāng)注 意,附圖中邏輯流程的任何框可以表示程序步驟或者互連的邏輯電路、框和功能,或者程序 步驟和邏輯電路、框和功能的組合。本發(fā)明的實(shí)施方式可以在諸如集成電路模塊的各種組件中實(shí)踐。集成電路的設(shè)計(jì) 基本上是高度自動化的過程。復(fù)雜并且強(qiáng)大的軟件工具可用于將邏輯水平設(shè)計(jì)轉(zhuǎn)化成已經(jīng) 準(zhǔn)備好可以蝕刻并在半導(dǎo)體基片上形成的半導(dǎo)體電路設(shè)計(jì)。諸如加利福尼亞州Mountain View市的Synopsys Inc.和加利福尼亞州San Jose 市的Cadence Design公司所提供程序之類的程序使用已建立的良好設(shè)計(jì)規(guī)則和預(yù)先存儲 的設(shè)計(jì)模塊庫來自動規(guī)劃導(dǎo)體并將組件定位在半導(dǎo)體芯片上。一旦完成了對半導(dǎo)體電路的 設(shè)計(jì),則作為結(jié)果的標(biāo)準(zhǔn)電子格式設(shè)計(jì)(例如,Opus、GDSII等)可以傳送到半導(dǎo)體制造設(shè) 備或者用于制造的“加工”。前述描述已經(jīng)通過示例和非限制示例提供了本發(fā)明示例性實(shí)施方式的完整和信 息性描述。然而,對于本領(lǐng)域技術(shù)人員而言,在結(jié)合附圖和所附權(quán)利要求進(jìn)行閱讀時(shí),各種 修改和調(diào)整會變得明顯。然而,本發(fā)明教導(dǎo)的所有這種和類似修改仍落入所附權(quán)利要求中 定義的本發(fā)明范圍內(nèi)。
權(quán)利要求
一種方法,包括從多個(gè)音頻源選擇音頻源子集;向裝置傳輸來自選擇的所述音頻源子集的信號;其中所述音頻源子集根據(jù)由所述裝置提供的信息來選擇。
2.如權(quán)利要求1所述的方法,進(jìn)一步包括在傳輸之前對來自所述音頻源子集的所述 信號進(jìn)行編碼。
3.如前述任一權(quán)利要求所述的方法,其中所述多個(gè)音頻源包括麥克風(fēng)柵格中的多個(gè)麥 克風(fēng)。
4.如前述任一權(quán)利要求所述的方法,其中所述多個(gè)音頻源包括適于成束的麥克風(fēng)陣列。
5.如前述任一權(quán)利要求所述的方法,其中由所述裝置提供的所述信息包括虛擬收聽者 坐標(biāo)。
6.如權(quán)利要求1-4任一項(xiàng)所述的方法,其中由所述裝置提供的所述信息包括音頻源選 擇信息。
7.如前述任一權(quán)利要求所述的方法,進(jìn)一步包括向所述裝置提供與所述多個(gè)音頻源 有關(guān)的配置信息。
8.如權(quán)利要求7所述的方法,其中由所述裝置提供的所述信息基于與所述多個(gè)音頻源 有關(guān)的所述配置信息而生成。
9.如權(quán)利要求7或8所述的方法,其中所述配置信息包括與所述音頻源有關(guān)的相對位直fe息。
10.如權(quán)利要求7-9所述的方法,其中所述配置信息包括與所述音頻源有關(guān)的定向信肩、ο
11.一種方法,包括生成與來自多個(gè)音頻源的期待音頻源子集有關(guān)的信息; 向裝置提供所述信息;以及 接收由所述裝置傳輸?shù)男盘枴?br>
12.如權(quán)利要求11所述的方法,進(jìn)一步包括解碼所述接收的信號,以合成與所述期待 音頻源子集有關(guān)的多個(gè)音頻聲道。
13.如權(quán)利要求12所述的方法,進(jìn)一步包括呈現(xiàn)所述合成的音頻聲道,以提供期待的音頻場景。
14.如權(quán)利要求11或12所述的方法,其中與期待的音頻源子集有關(guān)的所述信息包括虛 擬收聽者坐標(biāo)。
15.如權(quán)利要求11-13任一項(xiàng)所述的方法,其中與期待的音頻源子集有關(guān)的所述信息 包括音頻源選擇信息。
16.如權(quán)利要求11-15任一項(xiàng)所述的方法,進(jìn)一步包括接收與所述多個(gè)音頻源的配置 有關(guān)的配置信息。
17.如權(quán)利要求16所述的方法,其中與期待的音頻源子集有關(guān)的所述信息根據(jù)所述配 置信息而生成。
18.如權(quán)利要求16或17所述的方法,其中所述配置信息包括與所述音頻源有關(guān)的相對位置信息。
19.如權(quán)利要求16-18所述的方法,其中所述配置信息包括與所述音頻源有關(guān)的定向fn息ο
20.如從屬于權(quán)利要求13的權(quán)利要求16所述的方法,其中呈現(xiàn)所述合成的音頻聲道進(jìn) 一步包括根據(jù)與所述多個(gè)音頻源有關(guān)的所述配置信息,呈現(xiàn)所述合成的信號以提供期待 的音頻場景。
21.一種裝置,包括音頻源選擇器,配置用于根據(jù)由另一裝置提供的信息來選擇多個(gè)音頻源的子集;以及 編碼器,配置用于對來自音頻源的所述子集的信號進(jìn)行編碼,以及向所述另一設(shè)備傳 輸所述編碼信號。
22.如權(quán)利要求21所述的裝置,其中所述多個(gè)音頻源包括麥克風(fēng)柵格中的多個(gè)麥克風(fēng)。
23.如權(quán)利要求21所述的裝置,其中所述多個(gè)音頻源包括適于成束的麥克風(fēng)陣列。
24.如權(quán)利要求21-23任一項(xiàng)所述的裝置,其中由所述另一裝置提供的所述信息包括 虛擬收聽者坐標(biāo)。
25.如權(quán)利要求21-23任一項(xiàng)所述的裝置,其中由所述裝置提供的所述信息包括音頻 源選擇信息。
26.如權(quán)利要求21-25任一項(xiàng)所述的裝置,進(jìn)一步包括提供單元,配置用于向所述另 一裝置提供與所述多個(gè)音頻源有關(guān)的配置信息。
27.如權(quán)利要求26所述的裝置,其中所述配置信息包括與所述音頻源有關(guān)的相對位置 fn息ο
28.如權(quán)利要求26或27所述的裝置,其中所述配置信息包括與所述音頻源有關(guān)的定向 fn息ο
29.一種裝置,包括控制器,配置用于向另一裝置提供與期待的音頻場景有關(guān)的信息;以及 解碼器,配置用于從所述另一裝置接收編碼的信號,并解碼所述信號。
30.如權(quán)利要求29所述的裝置,進(jìn)一步包括呈現(xiàn)器,配置用于從所述解碼器接收解碼 的信號;以及其中所述控制器進(jìn)一步配置用于向所述呈現(xiàn)器提供控制信號; 所述呈現(xiàn)器進(jìn)一步配置用于根據(jù)所述解碼的信號和所述控制信號來生成期待的音頻 場景。
31.如權(quán)利要求29或30所述的裝置,其中與期待的音頻源子集有關(guān)的所述信息包括虛 擬收聽者坐標(biāo)。
32.如權(quán)利要求29或30所述的裝置,其中與期待的音頻源子集有關(guān)的所述信息包括音 頻源選擇信息。
33.如權(quán)利要求29-32任一項(xiàng)所述的裝置,其中所述控制器進(jìn)一步配置用于接收與所 述多個(gè)音頻源的配置有關(guān)的配置信息。
34.如權(quán)利要求33所述的裝置,其中所述配置信息包括與所述音頻源有關(guān)的相對位置 fn息ο
35.如權(quán)利要求33或34所述的裝置,其中所述配置信息包括與所述音頻源有關(guān)的定向 fn息ο
36.一種設(shè)備,包括控制裝置,用于向另一設(shè)備提供與期待的音頻場景有關(guān)的信息;以及 解碼裝置,用于從所述另一設(shè)備接收編碼的信號,以及解碼所述信號。
37.一種設(shè)備,包括選擇裝置,用于根據(jù)由另一設(shè)備提供的信息來選擇多個(gè)音頻源的子集;以及 編碼裝置,用于對來自音頻源的所述子集的信號進(jìn)行編碼,以及用于向所述另一設(shè)備 傳輸所述編碼的信號。
38.一種計(jì)算機(jī)程序代碼裝置,當(dāng)該程序運(yùn)行在處理器上時(shí),適于執(zhí)行如權(quán)利要求 1-20所述的任何步驟。
39.一種電子設(shè)備,包括如權(quán)利要求21-37任一項(xiàng)所述的裝置。
40.一種芯片集,包括如權(quán)利要求21-37任一項(xiàng)所述的裝置。
全文摘要
一種方法,包括從多個(gè)音頻源選擇音頻源子集;以及向裝置傳輸來自選擇的所述音頻源子集的信號;其中所述音頻源子集根據(jù)由所述裝置提供的信息來選擇。
文檔編號H04R3/00GK101960865SQ200880127789
公開日2011年1月26日 申請日期2008年3月3日 優(yōu)先權(quán)日2008年3月3日
發(fā)明者P·奧雅拉 申請人:諾基亞公司