對更高階高保真度立體聲響復制表示進行壓縮和解壓縮的方法和裝置與流程

文檔序號：12036193閱讀：224來源：國知局

本申請是申請?zhí)枮?01480023877.0、申請日為2014年4月24日、發(fā)明名稱為“對更高階高保真度立體聲響復制表示進行壓縮和解壓縮的方法和裝置”的發(fā)明專利申請的分案申請。

本發(fā)明涉及通過有區(qū)別地處理定向和環(huán)境信號分量對更高階高保真度立體聲響復制表示進行壓縮和解壓縮的方法和裝置。

背景技術：

更高階高保真度立體聲響復制(hoa)連同像波長合成(wfs)這樣的其他技術或者像22.2這樣的基于信道的方法一起提供表示三維聲音的一種可能性。然而，相對于基于信道的方法，hoa表示提供獨立于具體揚聲器設置的優(yōu)點。然而，這個靈活性以hoa表示在特殊的揚聲器設置上回放所必需的解碼處理為代價。與必需的揚聲器的數(shù)量通常非常大的wfs方法相比，hoa還可以被呈現(xiàn)給包括僅幾個揚聲器的設置。hoa的另外的優(yōu)點在于，對于到頭戴耳機的雙耳呈現(xiàn)，也可以使用相同的表示而不用做任何修改。

hoa基于按照截斷的球諧(sphericalharmonics，sh)擴展的復諧平面波(complexharmonicplanewave)幅度的空間密度的表示。每個擴展系數(shù)是角頻率的函數(shù)，其可以由時域函數(shù)等同地表示。因此，在不失一般性的情況下，完整的hoa聲場表示實際上可以被假設為包括o個時域函數(shù)，其中o標記擴展系數(shù)的數(shù)量。這些時域函數(shù)將等同地被稱作hoa系數(shù)序列或者稱作hoa信道。

hoa表示的空間分辨率隨著擴展的最大階n的增長而提高。不幸地，擴展系數(shù)的數(shù)量o隨著階n二次方地增長，具體地，o＝(n+1)²。例如，使用階n＝4的典型的hoa表示需要o＝25個hoa(擴展)系數(shù)。根據(jù)先前做出的考慮，給定期望的單信道采樣率fs和每個樣本的位數(shù)nb，用于傳輸hoa表示的總比特率由o·fs·nb確定。因此，以fs＝48khz的采樣率并且使用每個樣本nb＝16位來傳輸階n＝4的hoa表示導致19.2mbits/s的比特率，這對于許多實際的應用(例如對于流傳輸)非常高。

hoa聲場表示的壓縮在專利申請ep12306569.0和ep12305537.8中提出。代替單獨地對hoa系數(shù)序列中的每一個進行感知編碼，例如像在e.hellerud、i.burnett、a.solvang和u.p.svensson的“encodinghigherorderambisonicswithaac”(第124屆aes會議，阿姆斯特丹，2008年)中執(zhí)行的那樣，具體通過執(zhí)行聲場分析并且將給定的hoa表示分解成定向和殘余環(huán)境分量來試圖減少被感知編碼的信號的數(shù)量。定向分量通常應當由可以被視為一般平面波函數(shù)的少量的支配定向信號來表示。殘余環(huán)境hoa分量的階減小，因為假設在提取支配定向信號之后，更低階的hoa系數(shù)承載大部分相關信息。

技術實現(xiàn)要素：

總之，通過這樣的操作，要被感知編碼的hoa系數(shù)序列的初始數(shù)量(n+1)²被減少至固定數(shù)量的d個支配定向信號以及表示具有截斷的階nred＜n的殘余環(huán)境hoa分量的數(shù)量(nred+1)²個hoa系數(shù)序列，從而要編碼的信號的數(shù)量是固定的，亦即d+(nred+1)²。特別地，該數(shù)量獨立于在時幀(timeframe)k中的活動的支配(dominant)定向聲源的實際檢測到的數(shù)量dact(k)≤d。這意味著，在時幀k中，其中活動的支配定向聲源的實際檢測到的數(shù)量dact(k)小于定向信號的最大允許數(shù)量d，要被感知編碼的支配定向信號中的一些或者甚至是全部為零。最后，這意味著這些信道根本不用于捕捉聲場的相關信息。

在該背景下，ep12306569.0和ep12305537.8會議錄中的另外可能的弱點是用于在每個時幀中確定活動的支配定向信號的數(shù)量的標準，因為不試圖確定關于聲場的相繼感知編碼的活動的支配定向信號的最佳數(shù)量。例如，在ep12305537.8中，使用簡單的功率標準，也就是通過確定屬于最大特征值的系數(shù)間相關矩陣的子空間的維度，來估計支配聲源的量。在ep12306569.0中，提出對支配定向聲源的遞增檢測，其中如果來自各自方向的平面波函數(shù)的功率關于第一定向信號足夠高，則定向聲源被認為是支配的。使用像在ep12306569.0和ep12305537.8中那樣的基于功率的標準可能導致關于聲場的感知編碼是次優(yōu)的定向環(huán)境分解(directional-ambientdecomposition)。

本發(fā)明所要解決的問題是通過對當前的hoa音頻信號內容確定如何分配到預先確定的減少數(shù)量的信道、定向信號以及環(huán)境hoa分量的系數(shù)來改進hoa壓縮。該問題由在權利要求1和3中公開的方法來解決。使用這些方法的裝置在權利要求2和4中公開。

本發(fā)明在兩個方面改進在ep12306569.0中提出的壓縮處理。第一，更好地利用由將被感知編碼的給定數(shù)量的信道提供的帶寬。在沒有檢測到支配聲源信號的時幀中，最初被保留用于支配定向信號的信道被用于以殘余環(huán)境hoa分量的另外的hoa系數(shù)序列的形式來捕捉關于環(huán)境分量的另外的信息。第二，考慮到利用給定數(shù)量的信道對給定hoa聲場表示進行感知編碼的目標，關于該目的，適配用于確定要從hoa表示中提取的定向信號的量的標準。確定定向信號的數(shù)量，使得經(jīng)解碼和重構的hoa表示提供最低的感知誤差。該標準比較由提取定向信號并且使用更少的hoa系數(shù)序列來描述殘余環(huán)境hoa分量而引起的建模誤差，或者由不提取定向信號并且代替地使用另外的hoa系數(shù)序列來描述殘余環(huán)境hoa分量而引起的建模誤差。該標準進一步針對兩種情況考慮由定向信號和殘余環(huán)境hoa分量的hoa系數(shù)序列的感知編碼引入的量化噪聲的空間功率分布。

為了實現(xiàn)上述處理，在開始hoa壓縮之前，指定總數(shù)量i個信號(信道)，與其相比，hoa系數(shù)序列的最初數(shù)量o減少。假設環(huán)境hoa分量由最小數(shù)量ored個hoa系數(shù)序列來表示。在一些情況下，該最小數(shù)量可以是零。剩余的d＝i-ored個信道應當包含定向信號或者環(huán)境hoa分量的另外的系數(shù)序列，取決于定向信號提取處理決定什么在感知上更有意義。假設定向信號或者環(huán)境hoa分量系數(shù)序列到剩余的d個通道的分配可基于逐個幀(onframe-by-framebasis)地改變。為了在接收側重構聲場，將關于分配的信息作為額外的邊信息(sideinformation)來傳輸。

原則上，本發(fā)明的壓縮方法適合于使用固定數(shù)量的感知編碼對被標記為hoa的聲場的更高階高保真度立體聲響復制表示進行壓縮，其使用hoa系數(shù)序列的輸入時幀，所述方法包括基于逐個幀地執(zhí)行的下面的步驟：

-對當前幀估計支配方向的集合以及檢測到的定向信號的索引的對應數(shù)據(jù)集；

-將所述當前幀的hoa系數(shù)序列分解成非固定數(shù)量的定向信號，其具有包含在支配方向估計的所述集合中的各自方向并且具有所述定向信號的索引的各自數(shù)據(jù)集，其中所述非固定數(shù)量小于所述固定數(shù)量，

以及由減少的數(shù)量的hoa系數(shù)序列以及所述減少的數(shù)量的殘余環(huán)境hoa系數(shù)序列的索引的對應數(shù)據(jù)集表示的殘余環(huán)境hoa分量，所述減少的數(shù)量對應于所述固定數(shù)量與所述非固定數(shù)量之間的差值；

-將所述定向信號以及所述殘余環(huán)境hoa分量的hoa系數(shù)序列分配給數(shù)量對應于所述固定數(shù)量的信道，其中對于所述分配，使用所述定向信號的索引的數(shù)據(jù)集以及所述減少的數(shù)量的殘余環(huán)境hoa系數(shù)序列的索引的數(shù)據(jù)集；

-對相關幀的信道進行感知編碼，以便提供經(jīng)編碼的壓縮幀。

原則上，本發(fā)明的壓縮裝置適合于使用固定數(shù)量的感知編碼對被標記為hoa的聲場的更高階高保真度立體聲響復制表示進行壓縮，其使用hoa系數(shù)序列的輸入時幀，所述裝置執(zhí)行基于逐個幀的處理并且包括：

-適合于進行如下處理的部件：對當前幀估計支配方向的集合以及檢測到的定向信號的索引的對應數(shù)據(jù)集；

-適合于進行如下處理的部件：將所述當前幀的hoa系數(shù)序列分解成非固定數(shù)量的定向信號，其具有包含在支配方向估計的所述集合中的各自方向并且具有所述定向信號的索引的各自數(shù)據(jù)集，其中所述非固定數(shù)量小于所述固定數(shù)量，

-適合于進行如下處理的部件：將所述定向信號以及所述殘余環(huán)境hoa分量的hoa系數(shù)序列分配給數(shù)量對應于所述固定數(shù)量的信道，其中對于所述分配，使用所述定向信號的索引的數(shù)據(jù)集以及所述減少的數(shù)量的殘余環(huán)境hoa系數(shù)序列的索引的數(shù)據(jù)集；

-適合于進行如下處理的部件：對相關幀的信道進行感知編碼，以便提供經(jīng)編碼的壓縮幀。

原則上，本發(fā)明的解壓縮方法適合于對根據(jù)上面的壓縮方法壓縮的更高階高保真度立體聲響復制表示進行解壓縮，所述解壓縮包括步驟：

-對當前的經(jīng)編碼的壓縮幀進行感知解碼，以便提供信道的經(jīng)感知解碼的幀；

-使用檢測到的定向信號的索引的數(shù)據(jù)集以及所選擇的環(huán)境hoa系數(shù)序列的索引的數(shù)據(jù)集，重新分布信道的經(jīng)感知解碼的幀，以便重新創(chuàng)建定向信號的對應幀以及殘余環(huán)境hoa分量的對應幀；

-使用檢測到的定向信號的索引的數(shù)據(jù)集以及支配方向估計的集合，從定向信號的所述幀以及從殘余環(huán)境hoa分量的所述幀，重新組成hoa表示的當前經(jīng)解壓縮的幀，

其中根據(jù)所述定向信號預測關于均勻分布的方向的定向信號，并且此后從定向信號的所述幀、所述預測的信號以及所述殘余環(huán)境hoa分量重新組成所述當前經(jīng)解壓縮的幀。

原則上，本發(fā)明的解壓縮裝置適合于對根據(jù)上面的壓縮方法壓縮的更高階高保真度立體聲響復制表示進行解壓縮，所述裝置包括：

-適合于進行如下處理的部件：對當前的經(jīng)編碼的壓縮幀進行感知解碼，以便提供信道的經(jīng)感知解碼的幀；

-適合于進行如下處理的部件：使用檢測到的定向信號的索引的數(shù)據(jù)集以及所選擇的環(huán)境hoa系數(shù)序列的索引的數(shù)據(jù)集，重新分布信道的經(jīng)感知解碼的幀，以便重新創(chuàng)建定向信號的對應幀以及殘余環(huán)境hoa分量的對應幀；

-適合于進行如下處理的部件：使用檢測到的定向信號的索引的數(shù)據(jù)集以及支配方向估計的集合，從定向信號的所述幀以及從殘余環(huán)境hoa分量的所述幀，重新組成hoa表示的當前經(jīng)解壓縮的幀，

在相應的從屬權利要求中公開本發(fā)明的有利的另外的實施例。

附圖說明

參考附圖描述本發(fā)明的示例性實施例，其中：

圖1示出hoa壓縮的框圖；

圖2示出支配聲源方向的估計；

圖3示出hoa解壓縮的框圖；

圖4示出球面坐標系；

圖5示出對于不同的高保真度立體聲響復制階n以及對于角度θ∈[0，π]的規(guī)一化分散函數(shù)vn(θ)。

具體實施方式

a.改進的hoa壓縮

在圖1中例示根據(jù)本發(fā)明的基于ep12306569.0的壓縮處理，其中使用粗體框顯示與ep12306569.0相比較已經(jīng)修改或者新引入的信號處理塊，并且其中本申請中的(如這樣的方向估計)和′c′分別對應于ep12306569.0中的′a′(方向估計的矩陣)和′d′。對于hoa壓縮，使用長度l的hoa系數(shù)序列的不重疊的輸入幀c(k)的逐幀(frame-wise)的處理被使用，其中k標記幀索引。關于在等式(45)中指定的hoa系數(shù)序列將幀定義為：

c(k)：＝[c((kl+1)ts)c((kl+2)ts)c((k+1)lts)]，(1)

其中ts指示采樣周期。

圖1中的第一步驟或階段11/12是可選的，并且包括將hoa系數(shù)序列的不重疊的第k和(k-1)幀串接成長幀為：

該長幀與相鄰的長幀50％重疊，并且該長幀被相繼地用于支配聲源方向的估計。與的標記法類似，在下面的描述中使用波浪符號來指示相應的量指代長的重疊的幀。如果步驟/階段11/12不存在，則波浪符號沒有具體含意。

原則上，如在ep13305156.5中所提出的那樣地執(zhí)行支配聲源的估計步驟或階段13，但是具有重要的修改。修改涉及確定要檢測的方向的量，亦即應當從hoa表示中提取多少定向引號。這通過只有在與替代地使用另外的hoa系數(shù)序列進行環(huán)境hoa分量的更好的近似相比其在感知上更相關的情況下才激發(fā)提取定向信號來實現(xiàn)。在部分a.2中給出對該技術的詳細描述。

該估計提供已經(jīng)檢測到的定向信號的索引的數(shù)據(jù)集以及對應的方向估計的集合d標記在開始hoa壓縮之前必須設置的定向信號的最大數(shù)量。

在步驟或階段14中，將hoa系數(shù)序列的當前(長)幀分解(如在ep13305156.5中提出的那樣)成屬于集合中包含的方向的許多定向信號xdir(k-2)以及殘余環(huán)境hoa分量camb(k-2)。作為重疊添加處理的結果引入兩個幀的延遲，以便獲得平滑信號。假設xdir(k-2)包含總共d個信道，然而其中只有與活動的定向信號相對應的那些是非零的。指定這些信道的索引假設在數(shù)據(jù)集中輸出。另外，步驟/階段14中的分解提供在解壓縮側被用于根據(jù)定向信號預測原始hoa表示的部分的一些參數(shù)ζ(k-2)(更多細節(jié)參看ep13305156.5)。

在步驟或階段15中，智能地減少環(huán)境hoa分量camb(k-2)的系數(shù)的數(shù)量，以僅包含ored+d-ndir，act(k-2)個非零的hoa系數(shù)序列，其中指示數(shù)據(jù)集的基數(shù)，亦即幀k-2中的活動的定向信號的數(shù)量。因為假設環(huán)境hoa分量總是由最小數(shù)量ored個hoa系數(shù)序列表示，所以這個問題實際上可以簡化成從可能的o-ored個hoa系數(shù)序列中選擇剩余的d-ndir，act(k-2)個hoa系數(shù)序列。為了獲得平滑的減少的環(huán)境hoa表示，將該選擇實現(xiàn)為使得與在前一幀k-3時進行的選擇相比較，盡可能少的變化將發(fā)生。

具體地，將區(qū)別下面三種情況：

a)ndir，act(k-2)＝ndir，act(k-3)：在這種情況下，假設選擇與在幀k-3中相同的hoa系數(shù)序列。

b)ndir，act(k-2)＜ndir，act(k-3)：在這種情況下，可以使用比在最后的幀k-3中更多的hoa系數(shù)序列來表示在當前幀中的環(huán)境hoa分量。假設在k-3中被選擇的那些hoa系數(shù)序列也在當前幀中被選擇?？梢愿鶕?jù)不同的標準來選擇另外的hoa系數(shù)序列。例如，選擇camb(k-2)中具有最高平均功率的那些hoa系數(shù)序列，或者關于它們的感知重要性選擇hoa系數(shù)序列。

c)ndir，act(k-2)＞ndir，act(k-3)：在這種情況下，可以使用比在最后的幀k-3中更少的hoa系數(shù)序列來表示在當前幀中的環(huán)境hoa分量。這里需要回答的問題是必須使先前選擇的hoa系數(shù)序列中的哪些不活動(deactivate)。合理的解決方案是使在幀k-3時在信號分配步驟或階段16分配給信道的那些序列不活動。

為了避免在使另外的hoa系數(shù)序列活動或不活動時在幀邊界處的不連續(xù)性，使得各個信號平滑地淡入(fadein)或淡出(fadeout)是有利的。

具有減少的數(shù)量ored+ndir，act(k-2)個非零系數(shù)序列的最終的環(huán)境hoa表示由camb，red(k-2)標記。所選擇的環(huán)境hoa系數(shù)序列的索引在數(shù)據(jù)集中輸出。

在步驟/階段16中，xdir(k-2)中包含的活動的定向信號和camb，red(k-2)中包含的hoa系數(shù)序列被分配給i個信道的幀y(k-2)以便進行個體的感知編碼。為了更詳細地描述信號分配，假設幀xdir(k-2)、y(k-2)和camb，red(k-2)包括各個信號xdir，d(k-2)，d∈{1，...，d}、yi(k-2)，i∈{1，...，i}和camb，red，o(k-2)，o∈{1，...，o}，如下：

分配活動的定向信號，使得它們保存(keep)它們的信道索引以便獲得連續(xù)的信號用于相繼的感知編碼。這可以表示為：

yd(k-2)＝xdir，d(k-2)對于所有

環(huán)境分量的hoa系數(shù)序列被分配為使得最小數(shù)量的ored個系數(shù)序列總是包含在y(k-2)的最后的ored個信號中，亦即

yd+o(k-2)＝camb，red，o(k-2)對于1≤o≤ored。(5)

對于環(huán)境分量的另外d-ndir，act(k-2)個hoa系數(shù)序列，它們是否也在前一個幀中被選擇是有區(qū)別的：

a)如果它們也被選擇在前一個幀中傳輸，亦即，如果各自的索引也包含在數(shù)據(jù)集中，則這些系數(shù)序列到y(tǒng)(k-2)中的信號的分配與對于前一幀的相同。該操作保證平滑的信號yi(k-2)，這對于步驟或階段17中的相繼的感知編碼是有利的。

b)否則，如果一些系數(shù)序列是新選擇的，亦即，如果它們的索引包含在數(shù)據(jù)集中但是不在數(shù)據(jù)集中，則它們首先關于它們的索引以升序布置，并且以該次序分配給y(k-2)中尚未被定向信號占據(jù)的信道

這個具體的分配提供如下優(yōu)點：在hoa解壓縮處理期間，可以在不知道哪個環(huán)境hoa系數(shù)序列包含在y(k-2)的哪個信道的情況下執(zhí)行信號的重新分布和組成。代替地，可以在hoa解壓縮期間僅使用數(shù)據(jù)集和的知識來重構分配。

有利地，該分配操作還提供分配矢量其元素γo(k)(o＝1，...，d-ndir，act(k-2))標記環(huán)境分量的另外d-ndir，act(k-2)個hoa系數(shù)序列中的每一個的索引。換句話說，分配矢量γ(k)的元素提供關于環(huán)境hoa分量的另外的o-ored個hoa系數(shù)序列中的哪些被分配到具有不活動的定向信號的d-ndir，act(k-2)個信道中的信息。該矢量可以另外地傳輸，但是相比于按照幀速率不太頻繁，以便允許初始化針對hoa解壓縮而執(zhí)行的重新分布過程(參看部分b)。感知編碼步驟/階段17對于幀y(k-2)的i個信道進行編碼，并且輸出經(jīng)編碼的幀

對于沒有從步驟/階段16傳輸矢量γ(k)的幀，在解壓縮側，代替矢量γ(k)，使用數(shù)據(jù)參數(shù)集和來執(zhí)行重新分布。

a.1支配聲源方向的估計

在圖2中更詳細地圖示圖1的支配聲源方向的估計步驟/階段13。其基本上根據(jù)ep13305156.5來執(zhí)行，但是具有決定性的差異，即確定與要從給定的hoa表示中提取的定向信號的數(shù)量相對應的支配聲源的數(shù)量的方式。這個數(shù)量是重要的，因為它用于控制給定的hoa表示是通過使用更多的定向信號還是代替地通過使用更多的hoa系數(shù)序列來更好地表示，以對環(huán)境hoa分量更好地建模。

支配聲源方向的估計在步驟或階段21中開始，使用輸入的hoa系數(shù)序列的長幀對支配聲源方向進行初步檢索。與初步的方向估計(1≤d≤d)一起，如在ep13305156.5中所描述的那樣地計算應當由各個聲源創(chuàng)建的對應定向信號和hoa聲場分量

在步驟或階段22中，使用這些量以及輸入的hoa系數(shù)序列的幀來確定要提取的定向信號的數(shù)量因此，丟棄方向估計對應的定向信號以及hoa聲場分量代替地，然后僅將方向估計分配給先前發(fā)現(xiàn)的聲源。

在步驟或階段23中，根據(jù)聲源運動模型來平滑得到的方向軌跡，并且確定聲源中的哪些應當是活動的(參看ep13305156.5)。最后的操作提供活動的定向聲源的索引的集合和對應的方向估計的集合

a.2被提取的定向信號的數(shù)量的確定

為了在步驟/階段22中確定定向信號的數(shù)量，假設存在將被用于捕捉在感知上最相關的聲場信息的給定總量的i個信道的情況。因此，確定要提取的定向信號的數(shù)量，由如下問題激發(fā)：對于整體的hoa壓縮/解壓縮質量，當前的hoa表示是通過使用更多的定向信號還是更多的hoa系數(shù)序列來更好地表示以對環(huán)境hoa分量更好地建模。

為了在步驟/階段22中導出用于確定要提取的定向聲源的數(shù)量的標準(該標準與人類感知相關)，考慮具體通過下面的兩個運算來實現(xiàn)hoa壓縮：

-用于表示環(huán)境hoa分量的hoa系數(shù)序列的減少(這意味著相關信道的數(shù)量的減少)；

-定向信號的感知編碼以及用于表示環(huán)境hoa分量的hoa系數(shù)序列的感知編碼。

取決于所提取的定向信號的數(shù)量m(0≤m≤d)，第一個運算近似地得到

其中標記包括應當由m個單獨考慮的聲源創(chuàng)建的hoa聲場分量的定向分量的hoa表示，并且標記具有僅i-m個非零hoa系數(shù)序列的環(huán)境分量的hoa表示。

來自第二個運算的近似可以表示為：

其中和分別標記在感知解碼之后組成的定向和環(huán)境hoa分量。

標準的公式化

要提取的定向信號的數(shù)量被選擇為使得總的近似誤差

其中關于人類感知盡可能地不顯著。為了保證這一點，在預先定義的數(shù)量q個測試方向ωq(q＝1，...，q)上考慮各個巴克標度(barkscale)臨界帶的總誤差的定向功率分布，其在單位球面上幾乎均勻地分布。更具體地，第b個(b＝1，...，b)臨界帶的定向功率分布由下面的矢量表示：

其分量標記與方向ωq、第b個巴克標度臨界帶和第k幀相關的總誤差的功率?？傉`差的定向功率分布與下面的由于原始hoa表示的定向感知掩蔽功率分布進行比較：

接下來，對于每個測試方向ωq和臨界帶b，計算總誤差的感知級別其在這里基本上被定義為總誤差的定向功率與根據(jù)下式的定向掩蔽功率的比例：

執(zhí)行′1′與相繼最大值運算的減法以確保感知級別為零，只要誤差功率低于掩蔽閾值。

最后，可以將要提取的定向信號的數(shù)量選擇為最小化所有臨界帶上的誤差感知級別的最大值的所有測試方向上的平均值，亦即

應當注意，替代地，能夠在等式(15)中用平均運算替換最大值。

定向感知掩蔽功率分布的計算

為了計算由于原始hoa表示的定向感知掩蔽功率分布將后者變換到空間域，以便由從測試方向ωq(q＝1，...，q)碰撞的一般平面波表示。當以矩陣布置一般平面波信號如下時

到空間域的變換由下面的運算來表達

其中ξ標記關于測試方向ωq(q＝1，...，q)的模式矩陣，被定義為

其中

由于原始hoa表示定向感知掩蔽功率分布的每個元素對應于各個臨界帶b的一般平面波函數(shù)的掩蔽功率。

定向功率分布的計算

下面，給出用于計算定向功率分布的兩個替代：

a.一種可能性是通過計算在部分a.2的開始提及的兩個運算來實際地計算期望的hoa表示的近似然后，根據(jù)等式(11)來計算總的近似誤差接下來，將總的近似誤差變換到空間域，以便由從測試方向ωq(q＝1，...，q)碰撞的一般平面波表示。以矩陣將一般平面波信號布置為

到空間域的變換由下面的運算表示：

通過計算各個臨界帶b內的一般平面波函數(shù)的功率來獲得總的近似誤差的定向功率分布的元素

b.替代的解決方案是僅計算近似值而不是該方法提供如下優(yōu)點：不需要直接執(zhí)行各個信號的復雜的感知編碼。代替地，知道各個巴克標度臨界帶內的感知量化誤差的功率就足夠了。為此目的，在等式(11)中定義的總的近似誤差可以被寫作三個下面的近似誤差的總和：

可以假設它們彼此獨立。由于這種獨立性，總誤差的定向功率分布可以表達為三個各個誤差和的定向功率分布的總和。

下面描述如何計算各個巴克標度臨界帶的三個誤差的定向功率分布：

a.為了計算誤差的定向功率分布，首先通過下式將其變換到空間域：

其中近似誤差因此由從測試方向ωq(q＝1，...，q)碰撞的一般平面波表示，其根據(jù)下式布置為矩陣

因此，通過計算各個臨界帶b內的一般平面波函數(shù)的功率來獲得近似誤差的定向功率分布的元素

b.為了計算誤差的定向功率分布考慮到該誤差通過對定向信號進行感知編碼而被引入到定向hoa分量中。另外，考慮定向hoa分量由等式(8)給出。于是，為了簡單，假設hoa分量在空間域中由o個一般平面波函數(shù)等同地表示，其通過僅僅縮放根據(jù)定向信號來創(chuàng)建，亦即

其中標記縮放參數(shù)。假設各自的平面波方向在單位球面上均勻分布，并且被旋轉使得對應于方向估計因此，縮放參數(shù)等于′1′。

當關于旋轉的方向將定義為模式矩陣并且根據(jù)下式以矢量來布置所有縮放參數(shù)時：

hoa分量可以寫作：

因此，真實的定向hoa分量

與按照

由經(jīng)感知解碼的定向信號組成的定向hoa分量之間的誤差(參見等式(23))可以按照各個定向信號中的如下感知編碼誤差

而表示為

空間域中關于測試方向ωq(q＝1，...，q)的誤差的表示由下式給出

用標記矢量β^(d)(k)的元素，并且假設各個感知編碼誤差彼此獨立，根據(jù)等式(35)得出，感知編碼誤差的定向功率分布的元素由下式計算

應當表示定向信號中的第b個臨界帶內的感知量化誤差的功率?？梢约僭O該功率對應于定向信號的感知掩蔽功率。

c.為了計算由環(huán)境hoa分量的hoa系數(shù)序列的感知編碼造成的誤差的定向功率分布假設每個hoa系數(shù)序列被獨立地編碼。因此，可以假設被引入到每個巴克標度臨界帶內的各個hoa系數(shù)序列中的誤差是不相關的。這意味著關于每個巴克標度臨界帶的誤差的系數(shù)間相關矩陣是對角線的，亦即

元素應當表示中的第o個經(jīng)編碼的hoa系數(shù)序列中的第b個臨界帶內的感知量化誤差的功率?？梢约僭O它們對應于第o個hoa系數(shù)序列的感知掩蔽功率。因此，感知編碼誤差的定向功率分布通過下式計算

b.改進的hoa解壓縮

對應的hoa解壓縮處理在圖3中圖示并且包括下面的步驟或階段。

在步驟或階段31中，執(zhí)行對中包含的i個信號的感知解碼以便獲得中的i個經(jīng)解碼的信號。

在信號重新分布步驟或階段32中，重新分布中的經(jīng)感知解碼的信號，以便重新創(chuàng)建定向信號的幀和環(huán)境hoa分量的幀通過使用索引數(shù)據(jù)集和再現(xiàn)對hoa壓縮執(zhí)行的分配操作，獲得關于如何重新分布信號的信息。因為這是遞歸的過程(參看部分a)，所以可以使用另外傳輸?shù)姆峙涫噶喀?k)，以便允許例如在傳輸發(fā)生故障的情況下初始化重新分布過程。

在組成步驟或階段33中，使用定向信號的幀活動的定向信號索引的集合以及對應方向的集合用于根據(jù)定向信號來預測hoa表示的部分的參數(shù)ζ(k-2)以及減少的環(huán)境hoa分量的hoa系數(shù)序列的幀根據(jù)結合ep12306569.0的圖2b和圖4描述的處理，重新組成期望的總的hoa表示的當前幀對應于ep12306569.0中的分量并且和對應于ep12306569.0中的其中活動的定向信號索引在的矩陣元素中標明。亦即，根據(jù)定向信號來預測關于均勻分布的方向的定向信號，其中使用用于這樣的預測的所接收的參數(shù)(ζ(k-2))，并且此后從定向信號的幀預測部分以及減少的環(huán)境hoa分量重新組成當前的經(jīng)解壓縮的幀

c.更高階高保真度立體聲響復制的基礎

更高階高保真度立體聲響復制(hoa)基于補充假設為沒有聲源的所關注的緊密區(qū)域(compactarea)內的聲場的描述。在該情況下，在所關注的區(qū)域內、在時間t時和位置x處的聲壓p(t，x)的時空行為在物理上由齊性波等式(homogeneouswaveequation)充分確定。下面，假設如圖4中示出的球面坐標系。在使用的坐標系中，x軸指向前面位置，y軸指向左邊并且z軸指向頂部。空間x＝(r，θ，φ)^t中的位置由半徑r＞0(亦即，到坐標原點的距離)、從極軸z測量的傾角θ∈[0，π]以及在x-y平面中從x軸逆時針地測量的方位角φ∈[0，2π[來表示。另外，(·)^t標記轉置。

可以示出(參看e.g.williams，“fourieracoustics”，appliedmathematicalsciences的93卷，academicpress，1999年)，由標記的關于時間的聲壓的傅里葉變換，亦即

(其中ω標記角頻率并且i指示虛數(shù)單位)可以根據(jù)下式來擴展成球諧函數(shù)的級數(shù)：

在等式(40)中，cs標記聲速，并且k標記角波數(shù)(angularwavenumber)，其按照與角頻率ω相關。另外，jn(·)標記第一類球貝塞爾函數(shù)(sphericalbesselfunctionsofthefirstkind)，并且標記階n和度數(shù)m的實值球諧函數(shù)，其在下面的部分c.1中定義。擴展系數(shù)僅取決于角波數(shù)k。在上文，已經(jīng)隱含地假設聲壓在空間上是帶限的(bandlimited)。因此，球諧函數(shù)的級數(shù)關于在被稱作hoa表示的階的上限n處的階索引n而被截斷。

如果聲場由從角度元組(θ，φ)指定的所有可能方向到達的不同角頻率ω的無限數(shù)量的平面諧波的疊加來表示，則可以示出(參看b.rafaely，“plane-wavedecompositionofthesoundfieldonaspherebysphericalconvolution”，journaloftheacousticalsocietyofamerica，第4卷(116)，2149-2157頁，2004年)，各個平面波復數(shù)幅度函數(shù)c(ω，θ，φ)可以由下面的球諧函數(shù)擴展來表示

其中擴展系數(shù)按照與擴展系數(shù)相關。

假設各個系數(shù)是角頻率ω的函數(shù)，逆傅里葉變換(由標記)的應用針對每個階n和度數(shù)m提供時域函數(shù)

其可以按照c(t)＝(44)

收集在單個矢量c(t)中。矢量c(t)內的時域函數(shù)的位置索引由n(n+1)+1+m給出。矢量c(t)中元素的總數(shù)量由o＝(n+1)²給出。

最終的高保真度立體聲響復制格式將使用采樣頻率fs的c(t)的采樣版本提供為

其中ts＝1/fs標記采樣周期。c(lts)的元素在這里被稱作高保真度立體聲響復制系數(shù)。時序信號是實值的，并且因此高保真度立體聲響復制系數(shù)是實值的。

c.1實值球諧函數(shù)的定義

實值的球諧函數(shù)由

給出，其中

相關聯(lián)的勒讓德函數(shù)(legendrefunctions)pn，m(x)使用勒讓德多項式pn(x)定義為

并且不像上面提及的williams的文章，沒有康登－肖特萊相位項(condon-shortleyphaseterm)(-1)^m。

c.2更高階高保真度立體聲響復制的空間分辨率

從方向ω0＝(θ0，φ0)^t到達的一般平面波函數(shù)x(t)在hoa中由下式表示

平面波幅度的對應空間密度由下式給出

從等式(51)中可以看出，其是一般平面波函數(shù)x(t)與空間分散函數(shù)vn(θ)的乘積，其可以顯示為僅取決于ω與ω0之間的角度θ，具有如下性質

cosθ＝cosθcosθ0+cos(φ-φ0)sinθsinθ0.(52)

如預期的那樣，在無限階的極限下，亦即n→∞，空間分散函數(shù)變成狄拉克德爾塔(diracdelta)δ(·)，亦即

然而，在有限階n的情況下，來自方向ω0的一般平面波的貢獻被抹去到鄰近方向，其中模糊的程度隨著增加的階而減小。在圖5中示出n的不同值的規(guī)一化函數(shù)vn(θ)的圖表。

應當指出，對于任何方向ω，平面波幅度的空間密度的時域行為是它在任何其他方向上的行為的倍數(shù)。特別地，一些固定的方向ω1和ω2的函數(shù)c(t，ω1)和c(t，ω2)關于時間t彼此高度相關。

c.3球諧函數(shù)變換

如果平面波幅度的空間密度在幾乎均勻分布在單位球面上的數(shù)量o個空間方向ωo(1≤o≤o)上是離散的，則獲得o個定向信號c(t，ωo)。通過使用等式(50)將這些信號收集到矢量中，作為

cspat(t)：＝[c(t，ω1)...c(t，ωo)]t，(54)

，可以驗證可以通過簡單的矩陣乘法根據(jù)在等式(44)中定義的連續(xù)的高保真度立體聲響復制表示d(t)將該矢量計算為

cspat(t)＝ψ^hc(t)，(55)

其中(·)^h指示聯(lián)合點轉置和結合(jointtranspositionandconjugation)，并且ψ標記由下式定義的模式矩陣

ψ：＝[s1....so](56)

其中

因為方向ωo幾乎均勻分布在單位球面上，所以模式矩陣一般是可逆的。因此，可以按照下式根據(jù)定向信號c(t，ωo)來計算連續(xù)的高保真度立體聲響復制表示

c(t)＝ψ^-hcspat(t).(58)

兩個等式構成高保真度立體聲響復制表示與空間域之間的變換和逆變換。這些變換在這里被稱作球諧函數(shù)變換和逆球諧函數(shù)變換。

應當注意，因為方向ωo幾乎均勻分布在單位球面上，近似

ψ^h≈ψ^-1(59)

是可用的，這證明在等式(55)中使用ψ^-1來替代ψ^h是正當?shù)摹?/p>

有利地，所有所提及的關系對于離散的時域也是有效的。

本發(fā)明的處理可以由單個處理器或電子電路或者由并行操作和/或在本發(fā)明的處理的幾個部分上操作的若干處理器或電子電路來執(zhí)行。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：A.克勒格爾;S.科登
技術所有人：杜比國際公司
我是此專利的發(fā)明人

上一篇：一種基于盲源分離算法改善錄音質量的方法及其裝置與流程
上一篇：一種多聲道語音丟包補償方法與流程

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

對更高階高保真度立體聲響復制表示進行壓縮和解壓縮的方法和裝置與流程