用于具有相關(guān)聯(lián)的音頻內(nèi)容的對象的空間音頻信號處理的制作方法

文檔序號：11291421閱讀：195來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

用于具有相關(guān)聯(lián)的音頻內(nèi)容的對象的空間音頻信號處理的制造方法與工藝

背景技術(shù)：

基于分組的通信系統(tǒng)允許設(shè)備的用戶(例如，個人計算機(jī))使用分組協(xié)議(例如，因特網(wǎng)協(xié)議(ip))通過計算機(jī)網(wǎng)絡(luò)進(jìn)行通信?；诜纸M的通信系統(tǒng)可以用于各種類型的通信事件?？梢越⒌耐ㄐ攀录ㄕZ音通話、視頻通話、即時消息傳送、語音郵件、文件傳輸和其他。這些系統(tǒng)對用戶是有益的，因為它們通常比固定線路或移動網(wǎng)絡(luò)具有顯著降較低的成本。遠(yuǎn)距離通信的情況可能尤其如此。要使用基于分組的系統(tǒng)，用戶在其設(shè)備上安裝并執(zhí)行客戶端軟件。客戶端軟件提供基于分組的連接以及其他功能，如注冊和認(rèn)證。

通信系統(tǒng)允許設(shè)備的用戶通過諸如因特網(wǎng)的計算機(jī)網(wǎng)絡(luò)進(jìn)行通信。可以建立的通信事件包括語音通話、視頻通話、即時消息傳送、語音郵件、文件傳輸和其他。利用視頻通話，呼叫者可以觀看視頻圖像。

技術(shù)實現(xiàn)要素：

提供本發(fā)明內(nèi)容以便以簡化的形式來引入在下面的具體實施方式中進(jìn)一步描述的概念的選擇。本發(fā)明內(nèi)容不是要識別所要求保護(hù)的主題的關(guān)鍵特征或主要特征，也不是要用于限定所要求保護(hù)的主題的范圍。所要求保護(hù)的主題也不限于解決所提到的缺點中的任何或所有缺點的實現(xiàn)方式。

本公開的實施例涉及用于具有相關(guān)聯(lián)的音頻數(shù)據(jù)內(nèi)容的對象的空間音頻信號處理。例如，共享場景中的具有相關(guān)聯(lián)的音頻數(shù)據(jù)內(nèi)容的對象例如是在協(xié)作混合現(xiàn)實應(yīng)用中被生成的。在協(xié)作混合現(xiàn)實應(yīng)用中，參與者可以使對象在共享場景中可視化、將對象放置在共享場景中以及與共享場景中的對象進(jìn)行交互。該共享場景通常表示參與者之一的周圍空間，例如，場景可以包括來自于參與者之一的視點的視頻圖像。對象或虛擬對象可以“被放置”在場景中并且可以具有可以被參與者“看到”并且與參與者進(jìn)行交互的視覺表示。此外，對象可以具有相關(guān)聯(lián)的內(nèi)容。例如，對象可以具有諸如音頻、圖像、視頻或文本內(nèi)容之類的相關(guān)聯(lián)的內(nèi)容。例如，參與者可以將視頻播放器對象放置于共享場景中，并與其進(jìn)行交互以開始針對所有要觀看的參與者播放視頻。然后，另一參與者可以與視頻播放器對象進(jìn)行交互以控制重播或改變視頻播放器對象在場景中的位置。類似地，對象可以是接觸式圖像或是可以被顯示給場景的參與者的類似物。該對象還可以與音頻數(shù)據(jù)相關(guān)聯(lián)。以這種方式，“音頻”電話通話可以位于該場景內(nèi)。類似地，視頻會議會話參與者在場景中可以由具有來自參與者的相關(guān)聯(lián)的視頻和音頻數(shù)據(jù)的對象來表示。

發(fā)明人已經(jīng)認(rèn)識到，用戶可能不總會在視覺上感知場景內(nèi)的這些對象的位置，并因此可能“丟失”對象相對于用戶的位置/方向的位置。

根據(jù)本公開的第一方面，提供了一種用于生成場景的用戶設(shè)備，該用戶設(shè)備包括：對象確定器，其被配置為確定場景的對象，該對象與至少一個音頻信號相關(guān)聯(lián)；相對位置/方向確定器，其被配置為確定用戶設(shè)備的用戶與該對象之間的相對位置/方向；音頻位置處理器，其被配置為基于相對位置/方向?qū)χ辽僖粋€音頻信號進(jìn)行空間音頻信號處理以生成至少兩個信道音頻信號。

根據(jù)本公開的第二方面，提供了一種在用戶設(shè)備處實現(xiàn)的用于生成場景的方法，該方法包括：確定該場景的對象，該對象與至少一個音頻信號相關(guān)聯(lián)；確定用戶設(shè)備的用戶與該對象之間的相對位置/方向；以及基于相對位置/方向?qū)χ辽僖粋€音頻信號進(jìn)行空間音頻信號處理以生成至少兩個信道音頻信號。

根據(jù)本公開的第三方面，提供了一種計算機(jī)程序產(chǎn)品，該計算機(jī)程序產(chǎn)品被包含在非暫時性計算機(jī)可讀介質(zhì)上，并被配置為當(dāng)在用戶設(shè)備的處理器上執(zhí)行以用于生成場景時實施以下操作：確定該場景的對象，該對象與至少一個音頻信號相關(guān)聯(lián)；確定用戶設(shè)備的用戶與該對象之間的相對位置/方向；以及基于相對位置/方向?qū)χ辽僖粋€音頻信號進(jìn)行空間音頻信號處理以生成至少兩個信道音頻信號。

附圖說明

為了更好地理解本公開內(nèi)容并且示出如何可以實施本公開，現(xiàn)在將通過舉例的方式參考以下附圖，其中：

圖1示出了通信系統(tǒng)的示意圖；

圖2示出了用戶設(shè)備的示意圖；

圖3示出了作為可穿戴式頭戴式耳機(jī)的用戶設(shè)備的示意圖；

圖4a和圖4b示出了用于組合的視頻和表面再現(xiàn)(sr)數(shù)據(jù)的示例發(fā)射機(jī)和接收機(jī)流水線的示意圖；

圖5示出了用于具有相關(guān)聯(lián)的音頻數(shù)據(jù)內(nèi)容的對象的空間音頻信號處理的示例架構(gòu)的示意圖；

圖6示出了用于具有相關(guān)聯(lián)的音頻數(shù)據(jù)內(nèi)容的對象的空間音頻信號處理的初始化過程的流程圖；

圖7示出了用于具有相關(guān)聯(lián)的音頻數(shù)據(jù)內(nèi)容的對象的空間音頻信號處理的示例過程的流程圖；以及

圖8a和圖8b示出了用于在具有相關(guān)聯(lián)的音頻數(shù)據(jù)內(nèi)容的對象的空間音頻信號處理與音頻源的常規(guī)音頻表示之間進(jìn)行切換的示例過程的流程圖。

具體實施方式

僅通過示例來描述本公開的實施例。

圖1示出了通信系統(tǒng)100，其包括與用戶終端或設(shè)備102相關(guān)聯(lián)的第一用戶104(用戶a)，以及與第二用戶終端或設(shè)備108相關(guān)聯(lián)的第二用戶110(用戶b)。用戶設(shè)備102和108可以通過通信網(wǎng)絡(luò)106在通信系統(tǒng)100中進(jìn)行通信，從而允許用戶104和110通過通信網(wǎng)絡(luò)106彼此通信。通信網(wǎng)絡(luò)106可以是具有在第一用戶設(shè)備102和第二用戶設(shè)備108之間提供通信信道的能力的任何適合的網(wǎng)絡(luò)。例如，通信網(wǎng)絡(luò)106可以是因特網(wǎng)或另一類型的網(wǎng)絡(luò)，諸如高數(shù)據(jù)速率蜂窩或移動網(wǎng)絡(luò)，例如，第三代(“3g”)移動網(wǎng)絡(luò)。

注意，在可替代的實施例中，用戶設(shè)備可以經(jīng)由圖1中未示出的附加中間網(wǎng)絡(luò)連接到通信網(wǎng)絡(luò)106。例如，如果用戶設(shè)備102是移動設(shè)備，則它可以經(jīng)由蜂窩或移動網(wǎng)絡(luò)(圖1中未示出)連接到通信網(wǎng)絡(luò)106，所述蜂窩或移動網(wǎng)絡(luò)例如gsm、umts、4g等網(wǎng)絡(luò)。

用戶設(shè)備102和104可以是任何適合的設(shè)備，并且可以例如是移動電話、個人數(shù)字助理(“pda”)、個人計算機(jī)(“pc”)(包括，例如，windows^tm、macos^tm和linux^tmpc)、平板計算機(jī)、游戲設(shè)備、可穿戴設(shè)備或能夠連接到通信網(wǎng)絡(luò)106的其他嵌入式設(shè)備。可穿戴設(shè)備可以包括可穿戴式頭戴式耳機(jī)。

可以理解的是，用戶設(shè)備中的一個或多個可以由單個設(shè)備提供。用戶設(shè)備中的一個或多個可以由協(xié)作以提供用戶設(shè)備或終端的兩個或更多個設(shè)備提供。

用戶設(shè)備102被布置為從用戶a104接收信息以及向用戶a104輸出信息。

用戶設(shè)備102執(zhí)行由與通信系統(tǒng)100相關(guān)聯(lián)的軟件提供商提供的通信客戶端應(yīng)用112。通信客戶端應(yīng)用112是在用戶設(shè)備102中的本地處理器上執(zhí)行的軟件程序。通信客戶端應(yīng)用112在用戶設(shè)備102處執(zhí)行所需的處理，以便用戶設(shè)備102通過通信系統(tǒng)100發(fā)送和接收數(shù)據(jù)。在用戶設(shè)備102處執(zhí)行的通信客戶端應(yīng)用112可以被認(rèn)證以通過數(shù)字證書的呈現(xiàn)在通信系統(tǒng)上進(jìn)行通信(例如，以證明用戶104是通信系統(tǒng)的真實訂戶，這在wo2005/009019中更詳細(xì)地描述)。

第二用戶設(shè)備108可以與用戶設(shè)備102相同或不同。第二用戶設(shè)備108在本地處理器上執(zhí)行與在用戶終端102上執(zhí)行的通信客戶端應(yīng)用112相對應(yīng)的通信客戶端應(yīng)用114。在第二用戶設(shè)備108上的通信客戶端應(yīng)用114執(zhí)行允許用戶b110通過網(wǎng)絡(luò)106進(jìn)行通信所需的處理，其中，執(zhí)行該處理的方式與在用戶設(shè)備102上的通信客戶端應(yīng)用112執(zhí)行允許用戶a104通過網(wǎng)絡(luò)106進(jìn)行通信所需的處理的方式相同。用戶設(shè)備102和用戶設(shè)備108是通信系統(tǒng)中的端點。為了清楚，圖1僅示出了兩個用戶(104和110)以及兩個用戶設(shè)備(102和108)，但是在通信系統(tǒng)100中可以包括更多的用戶和用戶設(shè)備，并且如本領(lǐng)域已知的，在通信系統(tǒng)100中可以包括更多的用戶和用戶設(shè)備，并且更多的用戶和用戶設(shè)備可以使用在相應(yīng)的用戶設(shè)備上執(zhí)行的相應(yīng)的通信客戶端來通過通信系統(tǒng)100進(jìn)行通信。

圖2示出了在其上執(zhí)行通信客戶端應(yīng)用以通過通信系統(tǒng)100進(jìn)行通信的用戶設(shè)備102的示意圖。用戶設(shè)備102包括中央處理單元(“cpu”)202，該cpu被連接到諸如屏幕或觸摸屏之類的顯示器204、諸如用戶界面206的輸入設(shè)備(例如，小鍵盤)、攝像機(jī)208和觸摸屏204。

在一些實施例中，用戶接口206可以是小鍵盤、鍵盤、鼠標(biāo)、定向設(shè)備、觸摸板或類似物。然而，用戶接口206可以是任何適合的用戶接口輸入設(shè)備，例如，姿勢或運動控制用戶輸入、頭部跟蹤或眼部跟蹤用戶輸入。此外，在一些實施例中，用戶界面206可以是被配置為確定用戶到顯示器204的接近度的“觸碰”或“接近”檢測輸入。

在下面描述的實施例中，攝像機(jī)208可以是集成在用戶設(shè)備102或經(jīng)由有線或無線連接耦合到用戶設(shè)備的常規(guī)網(wǎng)絡(luò)攝像機(jī)。可替代地，攝像機(jī)208可以是諸如飛行時間或結(jié)構(gòu)化光攝像機(jī)的深度感知攝像機(jī)。此外，攝像機(jī)208可以包括多個圖像捕獲元件。圖像捕獲元件可以位于不同的位置或者用不同的點或視圖所指向，使得來自圖像捕獲元件的每個中的圖像可以被處理或組合。例如，可以比較圖像捕獲元件圖像，以便基于視差錯誤來確定距圖像的深度或物距。此外，在一些示例中，圖像可以被組合以產(chǎn)生具有比來自單個圖像捕獲元件圖像可能更大的分辨率或更大的視角的圖像。

可以將輸出音頻設(shè)備210(例如，揚聲器、多個揚聲器、頭戴式耳機(jī)、耳塞)和輸入音頻設(shè)備212(例如，麥克風(fēng)或多個麥克風(fēng))連接到cpu202。如圖2所示，顯示器204、用戶接口206、攝像機(jī)208、輸出音頻設(shè)備210以及輸入音頻設(shè)備212可以被集成到用戶設(shè)備102。在可替代的用戶設(shè)備中，顯示器204、用戶接口206、攝像機(jī)208、輸出音頻設(shè)備210以及輸入音頻設(shè)備212中的一個或多個可以不被集成到用戶設(shè)備102中并且可以經(jīng)由相應(yīng)的接口連接到cpu202。這種接口的一個示例是usb接口。

cpu202連接到網(wǎng)絡(luò)接口224(例如，調(diào)制解調(diào)器)，以用于與通信網(wǎng)絡(luò)106進(jìn)行通信。網(wǎng)絡(luò)接口224可以集成到用戶設(shè)備102中，如圖2所示。在可替代的用戶設(shè)備中，網(wǎng)絡(luò)接口224未被集成到用戶設(shè)備102中。用戶設(shè)備102還包括如本領(lǐng)域已知的用于存儲數(shù)據(jù)的存儲器226。該存儲器226可以是諸如rom的永久存儲器?？商娲兀鎯ζ?26可以是諸如ram的暫時性存儲器。

用戶設(shè)備102安裝有通信客戶端應(yīng)用112，其中通信客戶端應(yīng)用112存儲在存儲器226中并且被布置用于在cpu202上執(zhí)行。圖2還示出了在cpu202上執(zhí)行的操作系統(tǒng)(“os”)214。在os214之上運行的是用于上述通信客戶端應(yīng)用112的軟件棧216。軟件棧示出了i/o層218、客戶端引擎層220和客戶端用戶界面層(“ui”)222。每層負(fù)責(zé)特定功能。因為每層通常與兩個其他層進(jìn)行通信，所以它們被認(rèn)為是被布置成棧的，如圖2所示。操作系統(tǒng)214管理計算機(jī)的硬件資源并且處理經(jīng)由網(wǎng)絡(luò)接口224向通信網(wǎng)絡(luò)106發(fā)送的和從通信網(wǎng)絡(luò)106發(fā)送的數(shù)據(jù)。i/o層218包括音頻和/或視頻編解碼器，其接收輸入的編碼的流并對它們進(jìn)行解碼，以便適當(dāng)?shù)剌敵龅綋P聲器210和/或顯示器204，并且其從麥克風(fēng)212和/或攝像機(jī)208接收未編碼的音頻和/或視頻數(shù)據(jù)，并且對該數(shù)據(jù)進(jìn)行編碼以作為流發(fā)送到通信系統(tǒng)100的其他最終用戶設(shè)備?？蛻舳艘鎸?20處理如上所述的voip系統(tǒng)的連接管理功能，例如，通過基于服務(wù)器或p2p(對等)地址查找和認(rèn)證來建立通話或其他連接。客戶端引擎也可以負(fù)責(zé)本文中未討論的其他次要功能。客戶端引擎220也與客戶端用戶界面層222進(jìn)行通信。客戶端引擎220可以被布置為控制客戶端用戶界面層222以經(jīng)由顯示在顯示器204上的通信客戶端應(yīng)用112的用戶界面向用戶設(shè)備102的用戶呈現(xiàn)信息，并且經(jīng)由用戶界面從用戶設(shè)備102的用戶接收信息。

也在os214之上運行的是另外的應(yīng)用230。下面參考另外的應(yīng)用230和作為單獨的應(yīng)用的通信客戶端應(yīng)用112來描述實施例，然而可以將以下更加詳細(xì)描述的另外的應(yīng)用230的功能并入到通信客戶端應(yīng)用112中。

在圖3所示的一個實施例中，用戶設(shè)備102是頭戴式耳機(jī)或頭戴式用戶設(shè)備的形式。頭戴式用戶設(shè)備包括框架302，該框架302具有想要適合于穿戴者的鼻梁上的中央部分304以及想要適合于用戶的耳朵上的左右支撐延伸部306、308。雖然支撐延伸部306、308基本上被示出為是直的，但是它們可以以彎曲的部分終止，以常規(guī)眼鏡的方式更舒適地適合于耳朵上。

框架302支持標(biāo)記為310l和310r的左光學(xué)組件和右光學(xué)組件，該光學(xué)組件可以是例如由玻璃或聚合物形成的波導(dǎo)。

中央部分304可以容納cpu303、存儲器328和網(wǎng)絡(luò)接口324，如圖2所述。此外，框架302可容納微型顯示器形式的光引擎和形式為凸透鏡和準(zhǔn)直透鏡的成像光學(xué)器件。在一些實施例中，光引擎可以包括另外的處理器，或者采用cpu303來生成用于微型顯示器的圖像。微型顯示器可以是任何類型的圖像源的光，例如液晶顯示器(lcd)、背光lcd、led矩陣陣列(無論是有組織的還是無組織的)和任何其他適合的顯示器。顯示器可以由激活顯示器的各個像素的電路來驅(qū)動以生成圖像。來自每個顯示器的基本準(zhǔn)直的光通過在每個組件上提供的相應(yīng)的耦合接入?yún)^(qū)312l、312r輸出或耦合到每個光學(xué)組件310l、310r。然后，耦合接入的光可以通過涉及在相應(yīng)的中間(折疊)區(qū)域314l、314r中的光學(xué)組件的橫向的衍射和tir(全內(nèi)反射)的機(jī)制被引導(dǎo)，并且還向下進(jìn)入相應(yīng)的出射區(qū)域316l、316r，在出射區(qū)域316l、316r中耦合接入的光向用戶的眼部出射。

光學(xué)組件310可以基本上是透明的，使得用戶不僅可以查看來自光引擎的圖像，而且還可以通過光學(xué)組件查看真實世界視圖。

光學(xué)組件可以具有折射率n，其使得完全內(nèi)部反射發(fā)生以沿著中間擴(kuò)展區(qū)域314引導(dǎo)來自光引擎的光束，并向下朝向出射區(qū)域316。

頭戴式耳機(jī)或頭戴式設(shè)備形式的用戶設(shè)備102還可以包括被配置為捕獲佩戴頭戴式耳機(jī)的用戶的視場的至少一個攝像機(jī)。例如，圖3所示的頭戴式耳機(jī)包括立體攝像機(jī)318l和318r，立體攝像機(jī)318l和318r被配置為分別從用戶的左眼和右眼捕獲近似視圖(或視場)。在一些實施例中，一個攝像機(jī)可以被配置為捕獲適合的視頻圖像，并且另外的攝像機(jī)或范圍感測傳感器被配置為捕獲或確定從用戶到用戶的環(huán)境中的對象的距離。

類似地，頭戴式耳機(jī)形式的用戶設(shè)備102可以包括安裝在頭戴式耳機(jī)的框架306上的多個麥克風(fēng)。圖3所示的示例分別示出了位于支撐延伸部或臂306和308的“前”端處的左麥克風(fēng)322l和右麥克風(fēng)322r。支撐延伸部或臂306和308還可以包括“左”和“右”通道揚聲器、耳塞或其他音頻輸出換能器。例如，圖3所示的頭戴式耳機(jī)包括用作左和右聲道輸出揚聲器的一對骨傳導(dǎo)音頻換能器320l和320r。

本文描述了關(guān)于混合現(xiàn)實(mr)應(yīng)用的概念，然而在其他實施例中，相同的概念可以應(yīng)用于任何單方或多方通信應(yīng)用?；旌犀F(xiàn)實應(yīng)用例如可以涉及場景的共享，其中，包括攝像機(jī)的設(shè)備被配置為捕獲圖像或視頻并且將該圖像或該多個圖像發(fā)送到其他設(shè)備。另外，可以通過對象的添加、刪除和交互來擴(kuò)充或注釋該圖像或視頻。這些對象或虛擬對象可以被“放置”在圖像場景內(nèi)并且可以具有能夠被參與者(包括場景所有者)“看見”并與之進(jìn)行交互的視覺表示。對象不僅可以通過位置被定義還可以包括諸如對象類型和狀態(tài)之類的其他屬性。例如，對象可以具有諸如音頻/圖像/視頻/文本內(nèi)容之類的相關(guān)聯(lián)的內(nèi)容。例如，參與者可以嘗試與場景所有者和/或其他參與者進(jìn)行通信，并將音頻/視頻對象放置在共享場景內(nèi)。然后，同一參與者可以捕獲視頻和音頻數(shù)據(jù)并且將該視頻和音頻數(shù)據(jù)與對象相關(guān)聯(lián)，以及將對象信息和音頻/視頻數(shù)據(jù)發(fā)送到共享場景中的參與者以用于所有參與者來觀看/收聽。在一些實施例中，場景所有者還可以在由用戶設(shè)備生成的場景內(nèi)定義對象并且將對象放置在該場景內(nèi)而無需共享該場景。例如，用戶設(shè)備的用戶可以將具有相關(guān)聯(lián)的音頻或視頻以及音頻數(shù)據(jù)內(nèi)容的對象放置在場景內(nèi)，并且然后與該對象進(jìn)行交互以使得相關(guān)聯(lián)的音頻或視頻以及音頻數(shù)據(jù)內(nèi)容能夠被呈現(xiàn)給用戶。

對象的放置可以關(guān)于場景并且還可以關(guān)于場景的三維表示來進(jìn)行。為了使得能夠在遠(yuǎn)程設(shè)備上呈現(xiàn)或渲染對象的準(zhǔn)確的放置，與該場景相關(guān)聯(lián)的表面再現(xiàn)(sr)或網(wǎng)格數(shù)據(jù)可以被傳遞給共享場景的所有參與者。

關(guān)于圖4a的用于用戶設(shè)備的適合的發(fā)送(媒介棧)流水線架構(gòu)的示例。在本文所描述的這樣的實施例中，用戶設(shè)備可以被配置為生成圖像(視頻數(shù)據(jù))和表面再現(xiàn)(sr)或網(wǎng)格數(shù)據(jù)。

在所示的示例中，由(紅-綠-藍(lán))rgb傳感器/攝像機(jī)403來捕捉用于生成共享場景的圖像。rgb傳感器/攝像機(jī)403可以被配置為將捕獲的rgb原始數(shù)據(jù)傳遞給適合的設(shè)備視頻源405并且還將任何攝像機(jī)姿勢/投影矩陣信息傳遞給適合的設(shè)備視頻源405。

如圖4a所示的示例架構(gòu)還包括深度傳感器/攝像機(jī)401，其被配置為捕獲可以被傳遞給表面再現(xiàn)(sr)引擎和數(shù)據(jù)庫402的深度信息。該sr引擎和數(shù)據(jù)庫402可以被配置為接收深度信息并且根據(jù)已知的網(wǎng)格/sr方法生成sr原始數(shù)據(jù)。然后，該sr原始數(shù)據(jù)可以被傳遞給設(shè)備視頻源405。

視頻源405可以被配置為接收sr原始數(shù)據(jù)和rgb原始數(shù)據(jù)以及任何攝像機(jī)姿勢/投影矩陣信息。此外，視頻源405可以被配置為將sr原始數(shù)據(jù)輸出到適合的sr信道編碼器407，并且將依據(jù)原始幀和攝像機(jī)姿勢/投影矩陣數(shù)據(jù)的視頻圖像數(shù)據(jù)輸出到適合的h.264信道編碼器409。在本文所描述的示例中，h.264信道編碼器409是適合的視頻編碼器的示例。應(yīng)當(dāng)理解的是，在一些其他實施例中，所采用的視頻編解碼器是任何適合的編解碼器。例如，編碼器和解碼器可以采用高效視頻編碼hevc實現(xiàn)。

sr信道編碼器407可以被配置為接收sr原始數(shù)據(jù)并對sr原始數(shù)據(jù)進(jìn)行編碼以生成適合的編碼的sr數(shù)據(jù)。然后，該sr信道編碼器407可以被配置為將編碼的sr數(shù)據(jù)傳遞給分組生成器。具體地，編碼的數(shù)據(jù)可以被傳遞到sr分組創(chuàng)建器413。

h.264信道編碼器409可以類似地被配置為接收原始圖像/視頻幀和攝像機(jī)姿勢/投影矩陣數(shù)據(jù)，并且處理這些數(shù)據(jù)以生成編碼的幀和sei(補充增強(qiáng)信息)消息數(shù)據(jù)。編碼的幀和sei消息數(shù)據(jù)可以被傳遞到分組生成器411，并且具體地被傳遞到h.264分組創(chuàng)建器415。

與分組生成器411相關(guān)聯(lián)的概念是控制視頻和sr數(shù)據(jù)的分組以便數(shù)據(jù)的接收機(jī)能夠產(chǎn)生可靠和有效的混合現(xiàn)實體驗。

分組生成器411可以例如包括sr分組創(chuàng)建器413。sr分組創(chuàng)建器413可以被配置為生成可以被傳遞到分組類型敏感成形器419的sr片段分組。sr分組創(chuàng)建器413還可以被控制以用于重發(fā)反饋目的。在一些實施例中，使用nack方法進(jìn)行重傳反饋可能是不適合的，并因此可以實現(xiàn)ack方法。

因此，在一些實施例中，sr分組創(chuàng)建器413可被配置為將任何sr數(shù)據(jù)分組的引用保持在未決緩沖器中直至它們被發(fā)送。一旦分組被發(fā)送，然后可以將引用移動到未確認(rèn)緩沖器。

在這樣的實施例中，未確認(rèn)緩沖器可以具有限制發(fā)射機(jī)和接收機(jī)之間的業(yè)務(wù)的窗口大小。

然后可以保持sr數(shù)據(jù)分組的引用直到接收機(jī)確認(rèn)分組被接收到。

在一些實施例中，未確認(rèn)的緩沖器窗口大小可以根據(jù)接收機(jī)緩沖器深度進(jìn)行動態(tài)地調(diào)整。在一些實施例中，未確認(rèn)的緩沖器窗口大小可以是靜態(tài)值，例如，32。

在一些實施例中，sr分組創(chuàng)建器413可以被配置為當(dāng)sr幀到達(dá)時持續(xù)發(fā)送來自未決緩沖器的sr數(shù)據(jù)分組，即使當(dāng)時沒有接收到的反饋消息(例如，包括acknowledgmentbitmap(確認(rèn)比特映射)的消息)。實現(xiàn)持續(xù)發(fā)送方法表示不應(yīng)該在接收機(jī)處發(fā)生饑餓。

反饋消息可以包括值(例如，acknowledgmentbitmap消息中的basesequence(基序列)的值)。增加的值意味著到達(dá)并且包含值-1(basesequence-1)的所有分組都已被接收機(jī)確認(rèn)。

在一些實施例中，僅當(dāng)存在足夠帶寬時，sr分組創(chuàng)建器413可以被配置為發(fā)送除了所學(xué)習(xí)的接收機(jī)緩沖器深度以外的數(shù)據(jù)分組。

在一些實施例中，發(fā)送速度可以由雙路信道的rtt(往返時間)限制。例如，當(dāng)未確認(rèn)的緩沖器窗口大小是128個分組，并且rtt是200ms，并且mpu(應(yīng)用于sr數(shù)據(jù)片段的最大分組單位(maximumpacketunit))是1000時，則最大發(fā)送速度可以被限制為128*1000*(1000/200)＝5000千字節(jié)/秒。

因此，在一些實施例中，未確認(rèn)的緩沖器窗口大小以及(acknowledgmentbitmap)反饋消息的長度可以被調(diào)整以改變最大速率。

類似地，分組生成器411可以包括h.264分組創(chuàng)建器415。h.264分組創(chuàng)建器415可以被配置為生成適合的h.264分組片段并將這些分組片段傳遞到分組類型敏感成形器419。

分組生成器411還可以包括被配置為控制分組片段的生成和輸出的帶寬(bw)控制器417。bw控制器417可以負(fù)責(zé)在sr分組創(chuàng)建器413和h.264分組創(chuàng)建器415之間劃分帶寬分配。在一些實施例中，bw控制器417針對視頻維持48kb/s的最小帶寬。

在一些實施例中，bw控制器417可以被配置為在同時運行的每個并行信道之間初始地均勻地分配數(shù)據(jù)。例如，對于單個h.264信道和單個sr信道，數(shù)據(jù)劃分可以以50/50開始。然而，bw控制器417可以被配置為在確定的時間段之后針對h.264和sr帶寬要求確定或估計短期和長期平均。例如，用于h.264和sr帶寬要求的短期和長期平均可以在2.5秒后被確定。

應(yīng)該注意的是，在h.264/視頻和sr帶寬之間的這些值之間存在行為上的差異。對于視頻，帶寬值是被傳遞到h.264(視頻)編碼器409或應(yīng)該由h.264(視頻)編碼器409遵守的分配。雖然sr帶寬值可以是針對由sr信道使用的帶寬的觀察，并且媒體平臺可以監(jiān)視sr帶寬值以確定如何調(diào)整sr編碼器407內(nèi)的細(xì)節(jié)級別的參數(shù)。

然后，分組敏感成形器419可以被配置為接收sr分組片段和h.264分組片段，并且生成傳遞到傳送器421的適合的數(shù)據(jù)分組。分組敏感成形器419可以是感知h.264和sr數(shù)據(jù)分組的不同的實時要求的(網(wǎng)絡(luò)業(yè)務(wù))成形器。例如，成形器可以被實現(xiàn)為h.264和sr分組之間的輪詢。

傳送器421接收數(shù)據(jù)分組并且經(jīng)由適合的輸出流來輸出這些數(shù)據(jù)分組。

關(guān)于圖4b示出了被配置為接收圖像(視頻數(shù)據(jù))以及表面再現(xiàn)(sr)或網(wǎng)格數(shù)據(jù)的用戶設(shè)備的適合的接收流水線(媒體棧)架構(gòu)。

用戶設(shè)備可以包括傳送器451，其被判定為接收視頻流數(shù)據(jù)并且將該信息傳遞到接收機(jī)/分組匯編器。

分組匯編器可以包括sr分組匯編器453和h.264分組匯編器455。sr分組片段可以被傳遞到sr分組匯編器453以用于生成編碼的sr數(shù)據(jù)分組。h.264分組匯編器455可以被配置為接收h.264分組片段并且生成編碼的幀數(shù)據(jù)。

sr分組匯編器453可以被配置為生成適合的反饋消息(例如，acknowledgmentbitmap反饋消息)，其可以被發(fā)送到sr分組創(chuàng)建器以便控制sr數(shù)據(jù)的重傳。當(dāng)檢測到內(nèi)容開始事件時(例如，當(dāng)檢測到sr1_content_start_flag時)、或當(dāng)檢測到內(nèi)容停止事件時(例如，當(dāng)檢測到sr1_content_stop_flag時)、或當(dāng)檢測到文件事件的結(jié)束時(例如，當(dāng)檢測到sr1_content_eof_flag時)，可以生成該反饋消息。另外，在一些實施例中，當(dāng)新的sr分組到達(dá)sr分組匯編器453并且自先前的分組以來已經(jīng)經(jīng)過了預(yù)定的時間段(例如，250ms)時，生成反饋消息。在一些實施例中，針對每第7個(或其他確定的數(shù)量)接收的分組生成反饋消息。在一些實施例中，分組的確定的數(shù)量可以包括重傳的分組。另外，在一些實施例中，反饋消息可以在指示最后接收的分組(basesequence)的反饋值由確定數(shù)量的(例如，7個)分組超過了之后被生成。在一些實施例中，當(dāng)sr信道解碼器457報告錯誤時，生成反饋消息。

如本文所描述的，sr分組創(chuàng)建器被配置為接收反饋消息(acknowledgmentbitmap)并且控制經(jīng)緩沖的分組的重傳。

然后，編碼的sr數(shù)據(jù)分組可以被傳遞到sr信道解碼器457以生成sr原始數(shù)據(jù)。

h.264信道解碼器459可以被配置為接收來自h.264分組匯編器455的編碼的幀并且輸出適合的原始幀和攝像機(jī)姿勢/投影矩陣數(shù)據(jù)。然后，sr原始數(shù)據(jù)、和原始幀以及攝像機(jī)姿勢/投影矩陣數(shù)據(jù)可以被傳遞到視頻接收器461。

視頻接收器461可以被配置為將所接收的sr原始數(shù)據(jù)、和原始幀以及攝像機(jī)姿勢/投影矩陣數(shù)據(jù)輸出到任何適合的遠(yuǎn)程視頻應(yīng)用463或庫以用于適合的3d場景渲染(在3d場景渲染器465處)和視頻服務(wù)渲染(在視頻表面渲染器467處)。

另外，經(jīng)由傳送器451所接收的關(guān)于對象或注釋的任何數(shù)據(jù)可以被傳遞到適合的對象協(xié)議實體(例如，對象更新消息解碼器)，并且可以被傳遞到適合的注釋或?qū)ο箐秩酒鳌?/p>

如本文已經(jīng)描述的，對象可以與音頻數(shù)據(jù)或音頻源相關(guān)聯(lián)。例如，佩戴頭戴式耳機(jī)的用戶(場景所有者)可以創(chuàng)建包括視頻數(shù)據(jù)和網(wǎng)格(或表面重建sr數(shù)據(jù))的共享場景環(huán)境。諸如音頻或視頻呼入通話對象之類的對象可以被插入到該共享場景，所述對象可以被放置或固定在該共享場景內(nèi)的位置處。

當(dāng)對象在用戶(場景所有者)的視野內(nèi)時，可以以任何適合的方式向用戶渲染音頻信號使得對象的相對位置是可視的，并且因此對象的相對位置可以容易地被用戶所確定。然而，當(dāng)用戶(場景所有者)移動或轉(zhuǎn)動他們的頭部并且該對象離開了用戶的視野(離開了可視的共享場景)時，用戶可能迷失方向以繼續(xù)聽到仿佛來自用戶前方的位置的音頻源。另外，一旦對象離開用戶(場景所有者)的視野時，在不在用戶周圍搜索的情況下，用戶可能難以找到該對象。場景所有者頭部的這種(快速)搜索移動可以生成能夠使共享場景的其他參與者或觀察者迷失方向的視頻圖像。

如本文所描述的概念是能夠?qū)τ趯ο笙嚓P(guān)聯(lián)的音頻信號執(zhí)行空間音頻信號處理，所執(zhí)行的方式是音頻信號呈現(xiàn)為來自于對象的大概位置。例如，這可以通過將適合的頭部相關(guān)的傳輸函數(shù)(hrtf)應(yīng)用到音頻流水線中的音頻信號以在被傳遞到聲卡并且輸出之前生成空間輸出。在一些實施例中，當(dāng)對象僅在可視的共享場景之外時，空間音頻信號處理可以被應(yīng)用到與對象相關(guān)聯(lián)的音頻信號。

在下面示例中，用戶(或收聽者)和對象(或音頻源)之間的相對位置和/或方向可以大概或基本上由用戶佩戴的用戶設(shè)備和對象之間的相對位置和/或方向所限定。應(yīng)當(dāng)理解的是，在一些實施例中，用戶(或收聽者)和對象(或音頻源)之間的相對位置和/或方向還可以被確定為在用戶佩戴的用戶設(shè)備和對象之間的相對位置和/或方向以及確定的位置和/或方向的誤差或偏移(其反映了用戶設(shè)備和用戶的“聽覺中心”之間的差異)。

關(guān)于圖5示出了根據(jù)一些實施例的用于具有相關(guān)聯(lián)的音頻數(shù)據(jù)的對象的位置或空間處理的示例實體及應(yīng)用。在該示例中，會話管理實體應(yīng)用600被采用以接收或維持對象屬性(例如，對象位置/方向)和/或其他屬性(例如，對象類型和對象狀態(tài))。在一些實施例中，會話管理實體應(yīng)用600可以被配置為將對象位置和/或方向輸出到相對位置/方向確定器601。

如圖5所示的示例進(jìn)一步可以包括相對位置/方向確定器601。該相對位置/方向確定器601可以被配置為維持或接收來自于會話管理實體應(yīng)用600的對象位置和/或方向信息。相對位置確定器601還可以被配置為接收諸如方向和/或位置之類的用戶設(shè)備屬性。相對位置確定器601還可以被配置為接收其他參數(shù)，例如，用戶設(shè)備的視野以及確定的或估計的位置和/或方向誤差或偏移信息。因此，在一些實施例中，相對位置確定器601可以被配置為生成定義用戶設(shè)備(收聽者)和對象(源)之間的空間關(guān)系的相對收聽者-源位置/方向。在一些實施例中，空間關(guān)系可以基于或由從用戶設(shè)備到對象的相對方位(方向)來定義，或者可以由用戶設(shè)備與對象之間的相對方位(方向)和“距離”來定義。另外，在一些實施例中，相對位置確定器601可以被配置為確定收聽者-源之間的相對位置/方向是否表示對象在用戶設(shè)備攝像機(jī)的視野之內(nèi)。換句話說，相對位置確定器600可以被配置為確定對象是否在當(dāng)前可視或可觀察的共享場景內(nèi)。

然后，該信息可以被傳遞到音頻位置處理器(或空間信號處理器)605。

在圖5所示的示例中，進(jìn)一步可以包括音頻管理實體602。該音頻管理實體602可以被配置為維持或存儲音頻處理參數(shù)。例如，音頻管理實體可以存儲指示所需的輸出格式(例如，立體聲、多信道、5.1信道輸出)的初始化信息。另外，音頻管理實體可以存儲諸如初始化參數(shù)的信息，該初始化參數(shù)例如用于源和/或收聽者的個性化的hrtf的指示性模式和混響設(shè)置。該音頻管理實體602可以被配置為將這些參數(shù)輸出到音頻位置處理器605。

如圖5所示的示例可以進(jìn)一步包括音頻輸入緩沖器603。該音頻輸入緩沖器603可以被配置為接收音頻幀并且在處理之前緩沖該音頻幀。在本文所示的示例中，音頻輸入信號流中的信號是以48khz采樣的16位浮點單信道pcm編碼的音頻信號。然而，應(yīng)當(dāng)理解的是，該音頻輸入可以是任何適合的音頻輸入格式。另外，應(yīng)當(dāng)理解的是，雖然為了簡單起見在本文中示出并且描述的實施例是以單個對象和與該對象相關(guān)聯(lián)的音頻數(shù)據(jù)為特征，但是本方法和裝置可以被配置為處理多個對象和音頻信號。在這樣的實施例中，音頻信號中的每一個的輸出可以被組合以生成組合的經(jīng)處理的對象音頻信號。

音頻輸入緩沖器603可以被判定為將輸入音頻信號傳遞到音頻位置處理器605。如圖5所示的示例進(jìn)一步包括音頻位置處理器605(或音頻信號處理器或空間音頻信號處理器)。在這種實施例中，音頻位置處理器605可以被配置為接收來自于音頻輸入緩沖器603的輸入音頻信號、來自于相對位置/方向確定器601的相對位置/方向信息以及來自于音頻管理實體602的配置數(shù)據(jù)。然后，音頻位置處理器605可以生成適合的經(jīng)處理的音頻信號輸出。例如，在一些實施例中，音頻位置處理器可以被配置為使用相對位置/方向信息作為輸入?yún)?shù)應(yīng)用頭部相關(guān)的傳輸函數(shù)(hrtf)以生成來自于單音頻輸入信道的多個音頻輸出信道。在本文所描述的示例中，音頻位置處理器605可以生成以48khz采樣的16位浮點立體聲pcm音頻信號傳到音頻輸出緩沖器607。在本文所描述的示例中，音頻位置處理器605使用hrtf以生成多信道音頻輸出信號。然而，任何適合的空間處理應(yīng)用可以被采用以生成音頻信號。例如，空間處理可以是幅度平移或單音頻信號到輸出信道的映射。

如圖5所示的示例還包括音頻輸出607，其被配置為接收從音頻位置處理器605、緩沖器輸出的音頻信號并且將音頻輸出到適合的音頻輸出實體，例如，在個人計算機(jī)或類似的數(shù)字-模擬轉(zhuǎn)換實體內(nèi)的聲卡。

關(guān)于圖6描述了與如圖5所示的示例實現(xiàn)患者相關(guān)聯(lián)的示例初始化處理的流程圖700。例如，該初始化處理可以從設(shè)置初始源位置開始。該初始源位置可以是存儲在音頻管理實體602中的默認(rèn)的對象位置。在一些示例中，初始源位置可以默認(rèn)為(0,0,0)的初始坐標(biāo)系。

在圖6中由步驟s701示出了設(shè)置初始源位置的操作。

會話管理實體應(yīng)用600還可以根據(jù)對象屬性消息確定源位置。

在圖6中由步驟s703示出了根據(jù)對象屬性消息確定源位置的操作。

另外，該方法可以進(jìn)一步設(shè)置用于源和/或收聽者的初始方位性。默認(rèn)的方位性可以是“全方位的”，換句話說，源和/或收聽者不需要空間濾波并且不具有“偏愛的”方向。

在圖6中由步驟s705示出了設(shè)置初始方位性的操作。

另外，該方法可以要求設(shè)置收聽者的初始默認(rèn)方向。收聽者的方向的初始或默認(rèn)設(shè)置可以是(0,0,0)的默認(rèn)位置/方向。換句話說，源和收聽者會被初始化為同地協(xié)作的。

在圖6中由步驟s707示出了設(shè)置初始方向的操作。

另外，該方法可以進(jìn)一步描述設(shè)置初始混響設(shè)置以用于處理。用于混響的默認(rèn)設(shè)置可以是“關(guān)斷”，因為沒有混響將被施加到輸入音頻信號。

在圖6中由步驟s709示出了設(shè)置初始混響設(shè)置的操作。

關(guān)于圖7示出了關(guān)于如圖5所示的裝置描述的空間音頻信號處理的示例操作的流程圖800。

相對位置確定器可以被配置為更新用戶設(shè)備，并且因此近似收聽者(用戶或場景所有者)的頭部位置/方向。例如，該信息可以是從用戶設(shè)備定位確定傳感器或諸如數(shù)字羅盤或位置估算器之類的實體中接收的。

在圖7中由步驟s801示出了更新收聽者頭部位置/方向的操作。

另外，相對位置確定器601可以被配置為更新源(對象)位置/方向。例如，該源位置/方向信息可以是從會話管理實體應(yīng)用600和對象屬性值接收的。

在圖7中由步驟s803示出了更新源位置/方向的操作。

在相對位置確定器601的一些實施例中，相對位置確定器601可以被配置為確定收聽者-源位置/方向。如本文所述，其可以被定義為從收聽者到源的方向或作為方向和距離值。在一些實施例中，相對位置確定器可以進(jìn)一步被配置為確定在音頻信號的幀之間(或另一個確定的時間段之間)的相對收聽者-源位置/方向中的變化。

在一些實施例中，相對位置確定器601可以進(jìn)一步被配置為確定該變化是否小于確定的最小變化(例如，3°的旋轉(zhuǎn))。當(dāng)該變化小于確定的最小變化時，則沒有處理中的處理或變化會被執(zhí)行。

另外，在一些實施例中，相對位置確定器601可以被配置為確定何時相對收聽者-源位置/方向使得該源仍然在設(shè)備的用戶的視野內(nèi)，然后沒有處理的進(jìn)一步處理或變化會被執(zhí)行并且操作循環(huán)返回到更新收聽者和源位置/方向值。

在圖7中由步驟s805示出了確定相對收聽者-源位置/方向、確定相對收聽者-源位置/方向變化以及確定該變化是否小于確定的最小變化(并且另外，相對收聽者-源位置/方向是否仍然在視野內(nèi))的操作。

在一些實施例中，當(dāng)變化大于確定的最小變化并且在一些實施例中，當(dāng)相對收聽者-源位置/方向值在用戶設(shè)備的視野之外)時，則平滑的相對收聽者-源位置/方向值被確定。在一些實施例中，該平滑的值可以由舊的和新的相對收聽者-源位置/方向的線性插值來生成，并且該平滑的值可以被應(yīng)用于音頻數(shù)據(jù)的后續(xù)幀。類似地，平滑的值可以通過將適合的低通濾波器應(yīng)用于相對收聽者-源位置/方向值來生成。

在圖7中由步驟s807示出了生成平滑的相對收聽者-源位置/方向值的操作。

然后，平滑的相對收聽者-源值可以被輸出到音頻位置處理器605。

在圖7中由步驟s809示出了將平滑的相對收聽者-源值輸出到音頻位置處理器的操作。

然后，音頻位置處理器605可以接收音頻輸入信號并使用相對收聽者-源值作為hrtf的輸入?yún)?shù)應(yīng)用適合的頭部相關(guān)的傳輸函數(shù)處理以生成適合的音頻信道輸出。例如，音頻位置處理器605可以根據(jù)單輸入音頻信道來生成立體音頻信道。

使用頭部相關(guān)的傳輸函數(shù)根據(jù)單音頻信道來生成立體(多個)音頻信道的過程是已知的方法并且不會在本文中進(jìn)行任何進(jìn)一步的詳細(xì)描述。

在圖7中由步驟s811示出了使用具有相對收聽者-源值的hrtf來生成立體或多信道音頻信號的操作。

應(yīng)當(dāng)理解的是，在一些設(shè)備中，處理對象和相關(guān)聯(lián)的音頻信號處理的客戶端可以被切換到可以不需要空間音頻信號處理的其他客戶端。例如，用戶設(shè)備的用戶可以使用諸如本文所描述的對象在電話通話或會議通話之間切換到因特網(wǎng)瀏覽器客戶端。應(yīng)當(dāng)理解的是，與瀏覽器客戶端相關(guān)聯(lián)的音頻不應(yīng)該需要被進(jìn)行空間音頻信號處理，因為這可以導(dǎo)致用戶將他們的頭部轉(zhuǎn)動到音頻信號處于混亂的方向。

因此，關(guān)于圖8a和圖8b進(jìn)一步詳細(xì)描述了在空間音頻信號處理客戶端與采用了圖5所示的實體的其他客戶端之間進(jìn)行切換的示例。

在圖8所示的示例流程圖900中，空間音頻信號處理客戶端最初處于前景并且立體音頻信道是基于確定的hrtf生成的。

在圖8中由步驟s901示出了當(dāng)客戶端處于前景時，基于確定的hrtf生成立體音頻信號的操作。

相對位置確定器601可以進(jìn)一步被配置為確定客戶端何時被移動到背景。

在圖8中由步驟s903示出了確定客戶端何時被移動到背景的操作。

在一些實施例中，相對位置確定器601可以被配置為實現(xiàn)從最后的已知的相對收聽者-源位置/方向到默認(rèn)的位置的平滑的轉(zhuǎn)變。例如，這可以使用在最后的相對收聽者-源位置/方向與默認(rèn)的位置/方向之間的線性內(nèi)插或低通濾波來實現(xiàn)。

在圖8中由步驟s905示出了在最后的已知的相對收聽者-源位置/方向與默認(rèn)的相對收聽者-源位置/方向之間實現(xiàn)平滑的轉(zhuǎn)變的操作。

一旦已經(jīng)執(zhí)行了從最后的已知的相對收聽者-源位置/方向到默認(rèn)的相對收聽者-源位置/方向的平滑的轉(zhuǎn)變，則相對位置確定器601可以被配置為禁用空間或hrtf處理。

在圖8中由步驟s907示出了禁用hrtf處理的操作。

關(guān)于圖8b示出了其中空間處理適合的客戶端從背景移動到前景的操作。流程圖950示出了確定何時將客戶端從背景移動到前景。

在圖8b中由步驟s951示出了確定空間音頻信號處理客戶端正在移動到前景的操作。

另外，相對位置確定器601可以被配置為更新相對收聽者-源位置/方向值。

在圖8b中由步驟s953示出了更新相對收聽者-源位置/方向值的操作。

另外，相對位置確定器601可以被配置為實現(xiàn)從默認(rèn)的相對收聽者-源位置/方向到更新的相對收聽者-源位置/方向的平滑的轉(zhuǎn)變。例如，這可以使用在一系列幀中的適合的線性內(nèi)插或使用低通濾波操作來執(zhí)行。

在圖8b中由步驟s955示出了從默認(rèn)的位置到更新的相對收聽者-源位置/方向的平滑的轉(zhuǎn)變的實現(xiàn)。

然后，音頻位置處理器可以基于平滑的轉(zhuǎn)變值來實現(xiàn)hrtf處理直到已經(jīng)到達(dá)相對收聽者-源位置/方向。

在圖8b中由步驟s957示出了基于平滑的轉(zhuǎn)變值來實現(xiàn)hrtf或空間音頻處理并且然后繼續(xù)相對收聽者-源位置/方向處理的操作。

雖然已經(jīng)參照由用戶針對關(guān)于傳入的直播視頻的幀定位的對象進(jìn)行的交互描述了實施例，但是本公開的實施例擴(kuò)展到通過由計算機(jī)生成的圖像的交互。

通常，本文所述的功能中的任何一個可以使用軟件、固件、硬件(例如，固定的邏輯電路)、或這些實現(xiàn)的組合來實現(xiàn)。如本文使用的術(shù)語“控制器”、“功能”、“組件”和“應(yīng)用”通常表示軟件、固件、硬件或其組合。在軟件實現(xiàn)的情況下，控制器、功能、組件或應(yīng)用表示在處理器(例如，cpu或多個cpu)上執(zhí)行時執(zhí)行指定任務(wù)的程序代碼。程序代碼可以存儲在一個或多個計算機(jī)可讀存儲器設(shè)備中。下面描述的技術(shù)的特征是平臺無關(guān)的，這表示技術(shù)可以在具有各種處理器的各種商業(yè)計算平臺上被實現(xiàn)。

例如，用戶終端還可以包括使得用戶終端的硬件執(zhí)行操作的實體(例如，軟件)，例如，處理器功能塊等等。例如，用戶終端可以包括計算機(jī)可讀介質(zhì)，其可以被配置為維持如下指令，所述指令使得用戶終端并且更具體地使得用戶終端的操作系統(tǒng)和相關(guān)聯(lián)的硬件來執(zhí)行操作。因此，該指令用于配置操作系統(tǒng)和相關(guān)聯(lián)的硬件以執(zhí)行操作，并且以這種方式引起操作系統(tǒng)和相關(guān)聯(lián)的硬件的變換以執(zhí)行功能。指令可以由計算機(jī)可讀介質(zhì)通過各種不同的配置提供給用戶終端。

計算機(jī)可讀介質(zhì)的一種這樣的配置是信號承載介質(zhì)，并因此被配置為例如經(jīng)由網(wǎng)絡(luò)將指令(例如，作為載波)發(fā)送到計算設(shè)備。計算機(jī)可讀介質(zhì)也可以被配置為計算機(jī)可讀存儲介質(zhì)，并因此不是信號承載介質(zhì)。計算機(jī)可讀存儲介質(zhì)的示例包括隨機(jī)存取存儲器(ram)、只讀存儲器(rom)、光盤、閃速存儲器、硬盤存儲器以及可以是使用磁性、光學(xué)和其他技術(shù)來存儲指令和其他數(shù)據(jù)的其他存儲器設(shè)備。

還提供了一種用于生成場景的用戶設(shè)備，該用戶設(shè)備包括：對象確定器，其被配置為確定所述場景的對象，所述對象與至少一個音頻信號相關(guān)聯(lián)；相對位置/方向確定器，其被配置為確定所述用戶設(shè)備的用戶與所述對象之間的相對位置/方向；以及音頻位置處理器，其被配置為基于所述相對位置/方向?qū)λ鲋辽僖粋€音頻信號進(jìn)行空間音頻信號處理以生成至少兩個信道音頻信號。

所述音頻位置處理器可以被配置為利用頭部相關(guān)的傳輸函數(shù)對所述至少一個音頻信號進(jìn)行處理，其中所述相對位置/方向作為所述頭部相關(guān)的傳輸函數(shù)的參數(shù)輸入。

所述場景可以是通過通信網(wǎng)絡(luò)與至少一個另外的用戶設(shè)備進(jìn)行通信的共享場景，并且其中，所述對象可以與所述至少一個另外的用戶設(shè)備相關(guān)聯(lián)，并且其中，所述至少一個音頻信號可以是來自于所述至少一個另外的用戶設(shè)備的發(fā)送的音頻信號。

所述對象可以進(jìn)一步與視頻或圖像相關(guān)聯(lián)，并且所述用戶設(shè)備可以進(jìn)一步包括對象渲染器，所述對象渲染器被配置為在所述相對位置/方向處顯示所述視頻或圖像。

所述相對位置/方向確定器可以被配置為執(zhí)行以下操作：確定在確定的時間段內(nèi)的所述相對位置/方向中的變化；確定所述相對位置/方向中的變化大于確定的閾值；以及生成平滑的相對位置/方向作為所述相對位置/方向。

所述相對位置/方向確定器可以被配置為執(zhí)行以下操作：基于確定所述相對位置/方向在所述用戶的視野外，來生成在所述用戶的視野外的相對位置/方向作為所述相對位置/方向；以及另外維持當(dāng)前的位置/方向作為所述相對位置/方向。

所述相對位置/方向確定器可以被配置為執(zhí)行以下操作：確定所述相對位置/方向；確定在確定的時間段內(nèi)的所述相對位置/方向中的變化；基于確定所述相對位置/方向是在所述用戶的視野外以及確定所述相對位置/方向中的變化大于確定的閾值，來生成在所述用戶的視野外的平滑的相對位置/方向作為所述相對位置/方向；以及另外維持當(dāng)前的位置/方向作為所述相對位置/方向。

所述對象確定器可以被配置為確定至少一個另外的對象，所述對象與至少一個另外的音頻信號相關(guān)聯(lián)；并且其中，所述相對位置/方向確定器可以被配置為基于確定的相對位置/方向和默認(rèn)的相對位置/方向來確定轉(zhuǎn)變相對位置/方向；并且所述音頻位置處理器可以被配置為基于所述轉(zhuǎn)變相對位置/方向?qū)λ鲋辽僖粋€音頻信號進(jìn)行空間音頻信號處理以生成至少兩個信道音頻信號。

還提供了在用戶設(shè)備處實現(xiàn)的用于生成場景的方法，所述方法包括：確定所述場景的對象，所述對象與至少一個音頻信號相關(guān)聯(lián)；確定在所述用戶設(shè)備的用戶與所述對象之間的相對位置/方向；以及基于所述相對位置/方向?qū)λ鲋辽僖粋€音頻信號進(jìn)行空間音頻信號處理以生成至少兩個信道音頻信號。

對所述至少一個音頻信號進(jìn)行空間音頻信號處理可以包括利用頭部相關(guān)的傳輸函數(shù)對所述至少一個音頻信號進(jìn)行處理，其中所述相對位置/方向作為所述頭部相關(guān)的傳輸函數(shù)的參數(shù)輸入。

所述場景可以是通過通信網(wǎng)絡(luò)與至少一個另外的用戶設(shè)備進(jìn)行通信的共享場景，并且其中，所述對象可以與所述至少一個另外的用戶設(shè)備相關(guān)聯(lián)，并且其中，所述至少一個音頻信號可以是來自于所述至少一個另外的用戶設(shè)備發(fā)送的音頻信號。

所述對象可以進(jìn)一步與視頻或圖像相關(guān)聯(lián)，并且所述方法可以進(jìn)一步包括在所述相對位置/方向處顯示所述視頻或圖像。

確定相對位置/方向可以包括：確定在確定的時間段內(nèi)的所述相對位置/方向中的變化；確定所述相對位置/方向中的變化大于確定的閾值；以及生成平滑的相對位置/方向作為所述相對位置/方向。

確定相對位置/方向可以包括：基于確定所述相對位置/方向在所述用戶的視野外，來生成在所述用戶的視野外的相對位置/方向作為所述相對位置/方向；以及另外維持當(dāng)前的位置/方向作為所述相對位置/方向。

確定相對位置/方向可以包括：確定所述相對位置/方向；確定在確定的時間段內(nèi)的所述相對位置/方向中的變化；基于確定所述相對位置/方向在所述用戶的視野外以及確定所述相對位置/方向中的變化大于確定的閾值，來生成在所述用戶的視野外的平滑的相對位置/方向作為所述相對位置/方向；以及另外維持當(dāng)前的位置/方向作為所述相對位置/方向。

所述方法可以進(jìn)一步包括：確定至少一個另外的對象，所述對象與至少一個另外的音頻信號相關(guān)聯(lián)；基于所述確定的相對位置/方向和默認(rèn)相對位置/方向，確定轉(zhuǎn)變相對位置/方向；基于所述轉(zhuǎn)變相對位置/方向?qū)λ鲋辽僖粋€音頻信號進(jìn)行空間音頻信號處理以來生成至少兩個信道音頻信號。

還提供了一種計算機(jī)程序產(chǎn)品，所述計算機(jī)程序產(chǎn)品被體現(xiàn)在非暫時性計算機(jī)可讀介質(zhì)上，并被配置為當(dāng)在用戶設(shè)備的處理器上執(zhí)行以用于生成場景時實施以下操作：確定所述場景的對象，所述對象與至少一個音頻信號相關(guān)聯(lián)；確定所述用戶設(shè)備的用戶與所述對象之間的相對位置/方向；以及基于所述相對位置/方向?qū)λ鲋辽僖粋€音頻信號進(jìn)行空間音頻信號處理以生成至少兩個信道音頻信號。

盡管已經(jīng)以結(jié)構(gòu)特征和/或方法動作特有的語言對主題進(jìn)行了描述，但是應(yīng)當(dāng)理解，所附權(quán)利要求中限定的主題不一定限于上述具體特征或動作。相反，上述具體特征和動作被公開為實現(xiàn)權(quán)利要求的示例形式。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：S·斯里尼瓦桑;R·S·梅內(nèi)澤斯;S·C·賴特;H·懷
技術(shù)所有人：微軟技術(shù)許可有限責(zé)任公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

關(guān)聯(lián)對象相關(guān)技術(shù)

對象的關(guān)聯(lián)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于具有相關(guān)聯(lián)的音頻內(nèi)容的對象的空間音頻信號處理的制作方法