專利名稱:對(duì)收聽者進(jìn)行位置跟蹤的揚(yáng)聲器的制作方法
對(duì)收聽者進(jìn)行位置跟蹤的揚(yáng)聲器本發(fā)明涉及用于提供更好的聲重放——特別是立體聲或環(huán)繞聲重放——的音頻設(shè)備和方法,而優(yōu)選地不需要耳機(jī)?!?D’(二維)以及最近的‘3D’(三維)視覺顯示器在本領(lǐng)域中是已知的,且現(xiàn)在后者的版本(一些版本需要特殊的眼鏡來觀看)在許多制造商的電視機(jī)和計(jì)算機(jī)視覺顯示器出售物中變得普通。特別地,本發(fā)明可以與3D顯示器一起使用來幫助增強(qiáng)3D效果,但也可與所有類型的2D和3D視覺顯示器一起使用。陣列揚(yáng)聲器例如數(shù)字投音機(jī)(DSoP)在本領(lǐng)域中是已知的(例如,參見專利EP 1,224,037和US 7,577,260)。這些陣列揚(yáng)聲器通常包括揚(yáng)聲器換能器的陣列,每一個(gè)揚(yáng)聲器換能器使用不同的音頻信號(hào)來驅(qū)動(dòng)。陣列被配置成以類似于相控陣列的方式工作,其中陣列中的不同的換能器的輸出互相干擾。如果發(fā)送到每個(gè)換能器的音頻信號(hào)被適當(dāng)?shù)乜刂?,那么使用揚(yáng)聲器陣列來產(chǎn)生多個(gè)窄的聲音波束是可能的。波束可在家庭影院布置中使用的一種方式是使聲音從房間的各種表面反彈,以便不同的聲音通道從不同的方向到達(dá)用戶,從而提供真正的環(huán)繞聲體驗(yàn)。單獨(dú)的波束可用于通過使聲音從墻壁、地板和天花板或其它聲音反射表面或物體反彈來從不同的方向使聲音指向用戶。在用于創(chuàng)建環(huán)繞聲感覺的DSoP的正常使用中,前通道信號(hào)直接指向收聽區(qū)域(收聽者在該區(qū)域中),波束焦距被設(shè)置到選定的固定距離以優(yōu)化那個(gè)通道的聲音在收聽者當(dāng)中的均勻分布(通常這最好設(shè)置在負(fù)焦距處,即,給處于位于換能器陣列后面的虛焦點(diǎn));前左和前右通道信號(hào)通常(分別)經(jīng)由左和右壁反彈被定向到收聽區(qū)域,因此來自這些通道的占優(yōu)勢(shì)的聲音從墻壁的方向到達(dá)收聽者,大大增強(qiáng)了左通道和右通道的分離的感覺,并提供了廣闊的空間收聽體驗(yàn);左后和右后通道通常從側(cè)壁(且其中DSoP也允許從天花板的垂直的波束轉(zhuǎn)向以及水平的波束轉(zhuǎn)向)且隨后從后壁被反彈,以最終從與DSoP相反的方向(即,從收聽者后面)到達(dá)收聽區(qū)域,以給出“環(huán)繞聲”的強(qiáng)烈的感覺。在所有這些情況下,通常一旦被設(shè)置,所有通道聲音波束的方向、增益、頻率響應(yīng)和焦距在收聽期的持續(xù)時(shí)間內(nèi)就是固定的,除非用戶主動(dòng)介入以手動(dòng)修改它們(例如通過遠(yuǎn)程控制)??梢哉J(rèn)識(shí)到,對(duì)于產(chǎn)生有效的環(huán)繞聲的DSoP的使用(這需要從房間的墻壁反彈聲音波束),知道房間的尺寸以及DSoP和用戶的相對(duì)位置是非常合乎需要的。目前,這可通過用戶或安裝者手動(dòng)調(diào)整波束的方向和聚焦波束以達(dá)到期望的效果來實(shí)現(xiàn)。一種可選方案是當(dāng)聲音波束在房間周圍掃過時(shí)使用位于房間中的麥克風(fēng)并測(cè)量由麥克風(fēng)接收到的聲音。來自這樣的測(cè)量的信息允許房間幾何結(jié)構(gòu)和角度的估計(jì)用于最佳音頻體驗(yàn)。這個(gè)過程可被稱為“基于麥克風(fēng)的自動(dòng)設(shè)置”(MBAS),且在歐洲專利No. I, 584,217中被公開。波束的另一種用途是在家庭影院設(shè)置中將單獨(dú)的聲音波束直接投射到每個(gè)用戶。這可以與分割顯示屏以放映兩個(gè)或多個(gè)單獨(dú)的節(jié)目相結(jié)合。以這種方式,單獨(dú)的用戶可以觀看和收聽不同的媒體。窄的聲音波束意味著有很少串音,所以可以使播送到一個(gè)用戶的聲音對(duì)另一個(gè)用戶實(shí)質(zhì)上是聽不見的。該功能可稱為“向我播送(beam-to-me)”。圖像分析和分割以及物體識(shí)別過程在本領(lǐng)域中也是已知的,其在應(yīng)用于代表真實(shí)的(或虛擬的)2D或3D場(chǎng)景的視頻信號(hào)時(shí)能夠或多或少實(shí)時(shí)地提取關(guān)于在場(chǎng)景中的正被觀看的一個(gè)或多個(gè)物體的圖像特征。現(xiàn)今,這些圖像特征例如在視頻攝像機(jī)中被找到,視頻攝像機(jī)能夠識(shí)別場(chǎng)景中的一個(gè)或多個(gè)人(或也許僅僅人的臉部),識(shí)別那些人的位置(例如通過在攝像機(jī)的顯示屏上顯示包圍框),以及甚至在一些情況下確定圖像中的哪些人正在笑。人耳/腦系統(tǒng)通過注意到達(dá)右耳和左耳的信號(hào)之間的細(xì)微差別一主要是振幅差另O、相對(duì)時(shí)間延遲和微分頻譜成形——來確定進(jìn)入的聲音的方向。這些效果由頭部的幾何形狀和物理結(jié)構(gòu)引起一主要是因?yàn)檫@將兩個(gè)耳孔放置在空間中的不同位置處,以及在兩耳和任何聲音源之間有微分遮蔽、吸收和衍射結(jié)構(gòu)。兩耳之間的響應(yīng)中的差別被概括為頭部相關(guān)的傳遞函數(shù)(HRTF),其是聲源相對(duì)于例如在水平面中一直朝前的某個(gè)基準(zhǔn)的頻率和角位置的函數(shù)。從HRTF被定義的方式得出結(jié)論,如果聲音源被傳遞到收聽者的每個(gè)耳朵的區(qū)域(對(duì)特定聲源方向THETA (3D角)有在與HRTF相同的耳信號(hào)之間的差異),那么收聽者將感知到聲音的位置為來自方向THETA,即使它可通過例如耳機(jī)被直接傳遞到耳朵。到達(dá)兩耳的這樣的基于HRTF的聲音傳遞可被很好地描述為3D聲,在如果被準(zhǔn)確地完成的意義上,收聽者可以感知真實(shí)的或完全合成的完整的3D聲景。傳遞基于HRTF的3D聲(以下僅僅稱為3D聲)的許多方式在本領(lǐng)域中是已知的。如上所述,最簡(jiǎn)單的方式可以是通過耳 機(jī),盡管這在實(shí)踐中對(duì)于收聽者往往是不方便的,如果收聽者正在移動(dòng)則根本是困難的,且對(duì)于多個(gè)收聽者需要多套耳機(jī)。此外,使用耳機(jī),如果收聽者移動(dòng)她的頭部,那么她將有聲場(chǎng)隨著她的頭部移動(dòng)的使人不安的感覺,這破壞了魅力且聽起來不再‘真實(shí)’。3D聲的耳機(jī)傳遞的一個(gè)主要優(yōu)點(diǎn)是,幾乎完全地消除兩耳信號(hào)之間的串?dāng)_是簡(jiǎn)單的一我們可以精確地將左信號(hào)傳遞到左耳以及將右信號(hào)傳遞到右耳。為了避免在使用耳機(jī)將3D聲傳遞到一個(gè)或多個(gè)收聽者時(shí)固有的實(shí)際問題,用于使用遠(yuǎn)離收聽者的兩個(gè)或多個(gè)揚(yáng)聲器傳遞3D聲的方法在本領(lǐng)域中是已知的。當(dāng)這被完成時(shí),要解決的首要的新問題是兩耳信號(hào)之間的串?dāng)_的減少,使得即使兩耳現(xiàn)在暴露于這兩個(gè)揚(yáng)聲器,左耳也或多或少地聽到僅僅左側(cè)信號(hào),且對(duì)于右耳也一樣。這個(gè)問題及其解決方案通常被稱為串?dāng)_消除(XTC)。在一方面,本發(fā)明利用可合并到音頻系統(tǒng)(例如DSoP)、PC或電視機(jī)中的頭部跟蹤、眼睛跟蹤和/或注視跟蹤系統(tǒng)來改善用戶的音頻體驗(yàn)。在一方面,本發(fā)明包括音頻系統(tǒng),其包括用于發(fā)射音頻信號(hào)的多個(gè)揚(yáng)聲器;以及頭部跟蹤系統(tǒng);其中所述頭部跟蹤系統(tǒng)配置成估計(jì)收聽者的在空間中的頭部位置;其中收聽者的頭部的所估計(jì)的位置用于改變音頻信號(hào)??蛇x地,所述頭部跟蹤系統(tǒng)包括結(jié)合軟件算法的一個(gè)或多個(gè)攝像機(jī)??蛇x地,兩個(gè)或多個(gè)單獨(dú)定向的聲音波束由多個(gè)揚(yáng)聲器發(fā)射??蛇x地,視頻攝像機(jī)用于檢測(cè)頭部位置,且聲音波束相應(yīng)地被定向??蛇x地,一個(gè)或多個(gè)收聽者的頭部位置由視頻攝像機(jī)實(shí)時(shí)跟蹤,且聲音波束相應(yīng)地被定向。可選地,一個(gè)聲音波束被定向到收聽者的左耳,且另一個(gè)聲音波束被定向到收聽者的右耳??蛇x地,左定向的波束聚焦在與收聽者的左耳離揚(yáng)聲器的距離對(duì)應(yīng)的距離處,且右定向的波束聚焦在與收聽者的右耳離揚(yáng)聲器的距離對(duì)應(yīng)的距離處。
可選地,聲音波束靠近收聽者的兩耳中的每一個(gè)而聚焦,其中兩個(gè)聲音波束被配置成重現(xiàn)立體聲或結(jié)合頭部相關(guān)的傳遞函數(shù)處理來重現(xiàn)環(huán)繞聲。可選地,頭部相關(guān)的傳遞函數(shù)和/或心理聲學(xué)算法用于傳遞虛擬的環(huán)繞聲體驗(yàn),并且其中這些算法的參數(shù)基于所測(cè)量的用戶頭部位置而改變??蛇x地,頭部相關(guān)的傳遞函數(shù)包括參數(shù),且音頻系統(tǒng)布置成實(shí)時(shí)地改變頭部相關(guān)的傳遞函數(shù)的參數(shù)??蛇x地,揚(yáng)聲器的陣列與音頻信號(hào)一起使用,該音頻信號(hào)干涉以產(chǎn)生對(duì)該陣列成不同的角度投射的多個(gè)聲音波束,并且其中波束的角度使用頭部跟蹤系統(tǒng)來控制,以便將波束定向到一個(gè)或多個(gè)用戶的耳朵,以便允許波束在一個(gè)或多個(gè)用戶移動(dòng)時(shí)保持定向到耳朵。在另一方面,本發(fā)明包括音頻系統(tǒng),其包括用于發(fā)射音頻信號(hào)的多個(gè)揚(yáng)聲器;其中兩個(gè)或多個(gè)單獨(dú)定向的聲音波束由多個(gè)揚(yáng)聲器發(fā)射;其中一個(gè)聲音波束被配置 成聚焦在收聽者的左耳處,且另一個(gè)聲音波束被配置成聚焦在收聽者的右耳處。可選地,多個(gè)揚(yáng)聲器布置在陣列中。可選地,立體聲或環(huán)繞聲被傳遞到一個(gè)或多個(gè)收聽者??蛇x地,音頻系統(tǒng)被配置成使另外的波束指向額外的收聽者??蛇x地,兩個(gè)聲音波束的焦點(diǎn)位置根據(jù)收聽者的頭部的移動(dòng)來移動(dòng)??蛇x地,應(yīng)用了串音消除。可選地,每個(gè)波束攜帶3D聲節(jié)目的不同分量。在另一方面,本發(fā)明包括音頻系統(tǒng),其包括可在不同方向上引導(dǎo)密集的聲音波束的多個(gè)揚(yáng)聲器的陣列和頭部跟蹤系統(tǒng),頭部跟蹤系統(tǒng)包括結(jié)合軟件算法的一個(gè)或多個(gè)攝像機(jī)以估計(jì)系統(tǒng)的一個(gè)或多個(gè)用戶的空間中的頭部位置,其中一個(gè)或多個(gè)用戶的頭部的位置用于改變發(fā)送到揚(yáng)聲器陣列的每個(gè)揚(yáng)聲器的音頻信號(hào),使得單獨(dú)的音頻波束被定向到不同的用戶而在波束之間有很少串?dāng)_,并且其中波束的方向基于用戶的所測(cè)量的位置而改變。在另一方面,本發(fā)明包括音頻系統(tǒng),其包括可在不同方向上引導(dǎo)密集的聲音波束的多個(gè)揚(yáng)聲器的陣列和攝像機(jī)識(shí)別系統(tǒng),該攝像機(jī)識(shí)別系統(tǒng)包括結(jié)合軟件算法的一個(gè)或多個(gè)攝像機(jī)以估計(jì)房間中的特征,例如墻壁,其中房間幾何形狀的估計(jì)用來確定不同的音頻波束的設(shè)置,通常每個(gè)波束的方向和焦點(diǎn)允許波束從房間的存在的墻壁和特征適當(dāng)?shù)胤磸棧员銓⒄鎸?shí)的環(huán)繞聲體驗(yàn)傳遞給一個(gè)或多個(gè)用戶。在另一方面,本發(fā)明包括投音機(jī),其能夠使用控制系統(tǒng)產(chǎn)生多個(gè)聲音波束,該控制系統(tǒng)被配置成使得波束角、波束焦距、增益和頻率響應(yīng)的波束參數(shù)中的一個(gè)或多個(gè)根據(jù)正被重放的節(jié)目素材中的聲源的2D和3D位置以及移動(dòng)來實(shí)時(shí)地改變??蛇x地,投音機(jī)結(jié)合視覺顯示器來提供,其中對(duì)幾個(gè)通道聲音波束中的一個(gè)或多個(gè)的投音機(jī)通道波束設(shè)置根據(jù)驅(qū)動(dòng)視覺顯示器的視頻信號(hào)的空間參數(shù)而被動(dòng)態(tài)地實(shí)時(shí)修改??蛇x地,空間參數(shù)由第一空間參數(shù)處理器裝置得到,該裝置分析視頻輸入信號(hào),并實(shí)時(shí)地根據(jù)視頻信號(hào)計(jì)算所述空間參數(shù)。可選地,空間參數(shù)由第二空間參數(shù)處理器裝置得到,該裝置分析音頻輸入信號(hào),并實(shí)時(shí)地根據(jù)音頻信號(hào)計(jì)算所述空間參數(shù)。
可選地,空間參數(shù)由空間參數(shù)處理器裝置得到,該裝置分析視頻和音頻輸入信號(hào),并基于這兩信號(hào)的組合來計(jì)算空間參數(shù)。可選地,通道波束參數(shù)根據(jù)和視頻和/或音頻輸入信號(hào)一起提供的元數(shù)據(jù)來被實(shí)時(shí)地修改??蛇x地,對(duì)接近的收聽位置優(yōu)化一個(gè)或多個(gè)波束的波束參數(shù)??蛇x地,所述收聽位置離投音機(jī)的距離具有與投音機(jī)的寬度相同的數(shù)量級(jí)??蛇x地,投音機(jī)對(duì)著在所述收聽位置處的大于20度的角度??蛇x地,波束聚焦位置可以在投音機(jī)的平面的前面或后面,以便代表節(jié)目素材中的聲源的z位置。可選地,投音機(jī)與視頻顯示器、電視機(jī)、個(gè)人計(jì)算機(jī)或游戲控制臺(tái)一起使用。 本發(fā)明的第三方面是使用作為頭部跟蹤系統(tǒng)的固有部分的攝像機(jī)系統(tǒng)來估計(jì)房間的尺寸及用戶的位置以計(jì)算波束的最佳角度和聚焦深度,以傳遞真實(shí)的環(huán)繞聲體驗(yàn)。這樣的系統(tǒng)將取代MBAS并提高系統(tǒng)的可用性?,F(xiàn)在將僅僅作為非限制性的例子參照隨附的示意圖來進(jìn)一步描述本發(fā)明,其中圖I示出了投音機(jī)的頂視圖,其同時(shí)引導(dǎo)兩個(gè)波束,一個(gè)波束在每個(gè)收聽者的兩耳中的每一個(gè)處;圖2是包括水平投音機(jī)和用于頭部跟蹤的攝像機(jī)的音頻裝置的透視圖;圖3是包括水平投音機(jī)和用于精確的頭部跟蹤的兩個(gè)攝像機(jī)的音頻裝置的透視圖;圖4示出了用于實(shí)現(xiàn)空間參數(shù)處理器裝置的設(shè)備;以及圖5示出了為收聽者3提供具有虛擬原點(diǎn)2的聲場(chǎng)的投音機(jī)的頂視圖。聲音傳遞根據(jù)本發(fā)明的第一方面,使用陣列揚(yáng)聲器來代替2個(gè)或多個(gè)離散的揚(yáng)聲器以通過使兩個(gè)或多個(gè)波束(每個(gè)攜帶不同的聲音分量)定向到收聽者來將聲音一優(yōu)選地3D聲一一傳遞到收聽者的耳朵。陣列揚(yáng)聲器的總尺寸被選擇成使得它能夠在使聲音被收聽者感知的最重要的頻帶上例如從比如200-300HZ —直到5-lOKHz產(chǎn)生合理地定向的波束。因此,例如,I. 27m陣列(大約50英寸一與標(biāo)稱50英寸對(duì)角線電視屏幕的外殼尺寸相匹配)可被預(yù)期能夠產(chǎn)生下至低于300Hz的頻率的充分定向的波束。當(dāng)未聚焦時(shí),在 2m的距離處的實(shí)驗(yàn)測(cè)得的3dB波束半角為約21度,其遠(yuǎn)小于小的單個(gè)換能器揚(yáng)聲器的接近90度的半角波束。當(dāng)聚焦在陣列前面一 2m處時(shí),半角波束寬度減小到 15度。當(dāng)波束聚焦在陣列前面一2m處時(shí),在IKHz處,測(cè)得的波束半角減小到小于7度。顯然,在這樣的窄波束寬度的情況下,在收聽房間中的所有散射表面周圍漫射地傳播的來自陣列的所輻射的聲音的比例在小離散揚(yáng)聲器箱子上大大減少。優(yōu)選地,根據(jù)本發(fā)明,陣列揚(yáng)聲器用于將聲音或3D聲傳遞到收聽者,有攜帶左耳的信息的一個(gè)或多個(gè)波束被定向到收聽者的左耳且攜帶右耳的信息的一個(gè)或多個(gè)波束被定向到收聽者的右耳的額外特征。優(yōu)選地,波束盡可能精確地傳遞到耳朵。以這種方式,為每個(gè)耳朵預(yù)備的波束在每個(gè)耳朵處的相對(duì)強(qiáng)度相對(duì)于相對(duì)的耳朵被增加。凈效應(yīng)是在每個(gè)耳朵處的期望的信號(hào)的改善的辨別??梢允沟竭_(dá)每個(gè)耳朵的波束攜帶聲音信號(hào),聲音信號(hào)表示該耳朵在原始聲場(chǎng)中將聽到什么,其將為收聽者重放。這可以使用HRTF來實(shí)現(xiàn)以創(chuàng)建3D聲。當(dāng)通過耳機(jī)重放環(huán)繞聲時(shí),這些信號(hào)與呈現(xiàn)給耳朵的那些信號(hào)類似。這兩個(gè)信號(hào)之間的差異允許收聽者推斷在她的頭部周圍的多個(gè)不同的聲源。當(dāng)戴著耳機(jī)時(shí),在通道之間有很少或沒有串?dāng)_(B卩,由于由耳機(jī)提供的耳朵之間的隔離,右耳幾乎只聽到為右耳預(yù)備的聲音,且對(duì)于左耳類似)。當(dāng)試圖將這些類型的聲音信號(hào)通過一對(duì)標(biāo)準(zhǔn)的揚(yáng)聲器傳遞到收聽者時(shí),必須做大量的工作以(部分地)抵消串?dāng)_效應(yīng),因?yàn)榱Ⅲw聲揚(yáng)聲器獨(dú)自將幾乎相似振幅的信號(hào)傳遞到每個(gè)耳朵,且在由揚(yáng)聲器傳輸聲音之前需要很多補(bǔ)償,依賴于頭部相關(guān)的傳遞函數(shù)(HRTF)的知識(shí)和收聽者的頭部位置。然而,使用DsoP,十分緊密地將(至少頻譜的較高的頻率部分)單獨(dú)的波束聚焦在每個(gè)耳朵上(或在每個(gè)耳朵的附近)是可能的,且每個(gè)這樣的波束攜帶適當(dāng)?shù)夭煌男盘?hào)以傳達(dá)關(guān)于待重放的整個(gè)聲場(chǎng)的所需信息是可能的。在給定的頻率之上,可以使用充分依尺寸形成的DsoP陣列使串?dāng)_相當(dāng)小。然而,在與耳間間距相比波長(zhǎng)較大的頻率處,使用這種技術(shù),只有低級(jí)別的分離可能的,而且串?dāng)_將變得更大。優(yōu)選地,定向到收聽者的左耳的一個(gè)或多個(gè)波束也聚焦在離陣列的與收聽者的左 耳離陣列的距離對(duì)應(yīng)的一段距離處,且定向到收聽者的右耳的一個(gè)或多個(gè)波束也聚焦在離陣列的與收聽者的右耳離陣列的距離對(duì)應(yīng)的一段距離處。因此,每個(gè)波束的焦點(diǎn)在用戶的每個(gè)相應(yīng)的耳朵的附近。以這種方式,為每個(gè)耳朵預(yù)備的波束在該耳朵處的相對(duì)強(qiáng)度相對(duì)于相對(duì)的耳朵被進(jìn)一步提聞。圖I示出了包括位于收聽者3附近的聲換能器5的陣列的投音機(jī)1,一個(gè)聲音波束被定向和聚焦到非常接近于收聽者3的左耳的焦點(diǎn)20,而另一聲音波束被定向和聚焦到非常接近于收聽者的右耳的焦點(diǎn)21。由于這兩個(gè)波束在其各自的自己的焦點(diǎn)處的強(qiáng)度相對(duì)于其它波束的焦點(diǎn)處的相同波束強(qiáng)度的顯著差異,良好的收聽者通道分離可被實(shí)現(xiàn),使得收聽者3用她的左耳(它非??拷裹c(diǎn)20)主要聽到第一波束,且用她的右耳(它非??拷裹c(diǎn)21)主要聽到第二波束。因此,如果在這兩個(gè)波束上的節(jié)目素材表示收聽者在她戴著耳機(jī)的每只耳朵中將聽到什么,那么立體聲以及使用HRTF信息準(zhǔn)備的全環(huán)繞聲信號(hào)可以遠(yuǎn)程傳遞到收聽者,而沒有電線。為了完整性起見,應(yīng)指出,在上述布置中的任一個(gè)中(由此,兩個(gè)聲音波束生成),這兩個(gè)聲音波束都被定向到收聽者的耳朵的附近,或更具體地,一個(gè)被定向到收聽者的兩耳(左和右)中的每一個(gè)的附近,從適當(dāng)?shù)囟ㄎ坏膬蓚€(gè)相當(dāng)大地分開的陣列揚(yáng)聲器生成這兩個(gè)波束是可能的。如果它們都主要是優(yōu)選地在L-R方向上(B卩,在與定向到收聽者的耳朵的附近的陣列的軸大致水平的平面上)對(duì)齊的一維陣列,那么它們可被垂直地堆疊,以便分開地將其有效的源中心定位在合適的水平距離處(例如,如果每個(gè)陣列的長(zhǎng)度的一半的總和大于期望的L-R源間距),水平間距被任意選擇;否則,它們可位于大致相同的水平面上。除了消除在一個(gè)陣列中疊加L和R信號(hào)的需要以外,兩個(gè)單獨(dú)的陣列的這種布置看來似乎沒有特定的優(yōu)點(diǎn)及幾個(gè)實(shí)際的缺點(diǎn),包括增加的尺寸和成本。在收聽者的頭部關(guān)于DsoP相對(duì)固定的場(chǎng)合,一旦系統(tǒng)對(duì)該特定的用戶位置建立,兩個(gè)波束焦點(diǎn)就可在空間中是固定的。這樣的情況可能例如出現(xiàn)在DsoP與PC —起使用的情況下,其中收聽者通常正好坐在PC的前面。另一種這樣的情況是在車輛例如汽車中,其中收聽者的位置或多或少地關(guān)于座椅位置是固定的。在這后一種情況下,用戶可以調(diào)整她的座椅以改變她的位置,但在這種情況下,座椅調(diào)節(jié)機(jī)構(gòu)可用于通過詢問座椅調(diào)整系統(tǒng)來饋送關(guān)于收聽者的頭部的可能的新位置的信息,且因此兩個(gè)波束焦點(diǎn)位置可以隨座椅改變被自動(dòng)調(diào)整以跟蹤她的移 動(dòng)。頭部跟蹤然而,在收聽者的頭部位置可以不可預(yù)料地改變或者否則收聽者的頭部位置是相對(duì)根本未知的其它情況下,攝像機(jī)(可能有用地安裝在DsoP中,但在任何情況下,在它可以清楚地看到收聽者的頭部的位置中)用于使收聽者的頭部成像,且圖像分析軟件可用于確定在攝像機(jī)圖像幀內(nèi)的收聽者的頭部的圖像的特性和位置。知道了攝像機(jī)的幾何形狀、位置和指向方向以及人的頭部的近似大小,則估算收聽者的頭部的3D坐標(biāo)(相對(duì)于攝像機(jī),且因此相對(duì)于DsoP)以及因此適當(dāng)?shù)胤謩e靠近收聽者的兩耳自動(dòng)地定向兩個(gè)波束是可能的。假設(shè)收聽者移動(dòng),那么頭部跟蹤系統(tǒng)可以檢測(cè)該移動(dòng)并計(jì)算新的波束焦點(diǎn)位置,且因此跟蹤收聽者的頭部。因此,優(yōu)選地包括視頻攝像機(jī)的頭部跟蹤系統(tǒng)在本發(fā)明的第二方面中用于觀察至少在收聽者可能位于的區(qū)域中的收聽房間。該系統(tǒng)能夠?qū)崟r(shí)或幾乎實(shí)時(shí)地從所捕獲的視頻圖像幀中識(shí)別相對(duì)于一個(gè)或多個(gè)收聽者的揚(yáng)聲器的位置。對(duì)于每個(gè)這樣的位置跟蹤的收聽者中的一個(gè)或多個(gè),音頻系統(tǒng)可適當(dāng)?shù)卣{(diào)整用于將聲音傳遞到該收聽者的一個(gè)或多個(gè)波束的方向,使得在當(dāng)該收聽者改變她在房間中的位置時(shí),相關(guān)的波束相對(duì)于收聽者的頭部被或多或少地保持在相同的位置。這個(gè)發(fā)展可用于確保收聽者總是接收正確的聲音信息。當(dāng)使用兩個(gè)波束時(shí),這可以在該收聽者頭部適當(dāng)?shù)貎?yōu)化串?dāng)_消除,而不需要復(fù)雜的算法或不需要使用耳機(jī)。因此,本發(fā)明能夠?yàn)橐粋€(gè)或多個(gè)收聽者提供立體聲或環(huán)繞聲,而無需使用耳機(jī)且在房間中沒有僅僅一個(gè)小的“最有效位置”。實(shí)際上,本發(fā)明可以為每個(gè)收聽者提供她自己的單獨(dú)的“最有效位置”,當(dāng)收聽者移動(dòng)時(shí),該“最有效位置”移動(dòng)。因此,可以獲得迄今還是不可能的杰出的效果。頭部跟蹤還可應(yīng)用于PC應(yīng)用,其中常??梢杂袔讉€(gè)特點(diǎn)和限制。首先,單個(gè)用戶通常位于離屏幕60cm左右,其頭部被定位在中央。其次,用戶后面的墻壁的位置是非常不確定的,且使用房間墻壁反彈聲音可能是不切實(shí)際的。第三,用于PC的音頻產(chǎn)品價(jià)格非常敏感,意味著存在強(qiáng)大的價(jià)格壓力來避免使用在陣列中的許多換能器。第四,在這樣的應(yīng)用中產(chǎn)生環(huán)繞聲的主要的競(jìng)爭(zhēng)是使用心理聲學(xué)算法以產(chǎn)生‘虛擬的環(huán)繞聲’(虛擬化)。這樣的系統(tǒng)利用了關(guān)于用戶的大腦如何詮釋到達(dá)兩耳的音頻輸入以在3D空間中定位聲源的知識(shí)。特別是,這樣的算法利用了 ‘頭部相關(guān)的傳遞函數(shù)’,其模擬來自不同方向的聲音如何被用戶的頭部影響以及延遲是什么和對(duì)來自不同方向的聲音的由兩耳接收到的音頻信號(hào)的其它變化。作為標(biāo)準(zhǔn),這樣的虛擬化系統(tǒng)僅僅利用了與通常位于顯示屏的任一側(cè)上的大部分PC系統(tǒng)一起使用的標(biāo)準(zhǔn)立體聲揚(yáng)聲器。這樣的虛擬化算法需要用戶占用揚(yáng)聲器之間的非常緊密的區(qū)域。當(dāng)用戶移動(dòng)其頭部而未被定位在中心時(shí),環(huán)繞聲虛擬音頻體驗(yàn)喪失。在基礎(chǔ)水平處,本發(fā)明的一個(gè)方面是基于關(guān)于在如頭部跟蹤系統(tǒng)所確定的3D空間中用戶的頭部的位置的所測(cè)量的信息來改變虛擬化算法的參數(shù)。本發(fā)明優(yōu)選地使用DSoP陣列,其被配置成產(chǎn)生兩個(gè)窄的聲音波束,一個(gè)被定向到用戶的每個(gè)耳朵。當(dāng)用戶的頭部移動(dòng)時(shí),波束方向也被改變,以便維持在每個(gè)耳朵上的波束的方向。施加到每個(gè)波束的音頻信號(hào)可使用心理聲學(xué)算法來處理以傳遞虛擬的環(huán)繞聲效應(yīng)。然而,DSoP陣列的使用當(dāng)與頭部跟蹤系統(tǒng)結(jié)合時(shí)意味著有用于體驗(yàn)環(huán)繞聲的動(dòng)態(tài)調(diào)整的和移動(dòng)的“最有效位置”。除了使聲音波束定向以外,如上,實(shí)時(shí)地改變虛擬環(huán)繞聲算法的參數(shù)以說明使用者的頭部的不同方位也是可能的。使用這樣的系統(tǒng),減小DSoP陣列的尺寸和復(fù)雜性是可能的,因?yàn)樵摴δ墁F(xiàn)被限制于投射需要被分離開大致用戶的頭部的寬度的兩個(gè)聲音波束。這可以幫助減少陣列的成本。圖2示出了音頻系統(tǒng),其包括具有安裝在其上的攝像機(jī)6的投音機(jī)I。在該實(shí)例中,投音機(jī)是水平延伸的直線陣列,其能夠在水平面內(nèi)發(fā)出波束。攝像機(jī)6安裝在投音機(jī)上,以便具有通常包括所有可能的收聽位置的視場(chǎng)。在圖2中,攝像機(jī)6和投音機(jī)5被示為示意性地連接到處理器7,處理器7可以詮釋來自攝像機(jī)6的圖像、確定收聽者頭部或耳朵位置以及為投音機(jī)5提供控制信號(hào),該控制信號(hào)使不同的波束被定向到不同的用戶或使每個(gè)用戶接收分別到達(dá)其左耳和右耳的不同的波束。每個(gè)用戶可以接收相同的節(jié)目,在這種情況下,所有左耳波束攜帶相同的信息且所有右耳波束攜帶相同的信息,或者用戶可以接收不同的節(jié)目,在這種情況下,左耳波束可攜帶不同于彼此的信息,且對(duì)右耳波束也一樣。處理器7可合并到攝像機(jī)6或投音機(jī)5中,且實(shí)際上攝像機(jī)6可合并到投音機(jī)5中以創(chuàng)建單盒 解決方案。本發(fā)明的另一方面涉及在家庭影院設(shè)置中的系統(tǒng)的使用,其中用戶通常定位成更遠(yuǎn)離屏幕,并且多個(gè)用戶可使用屏幕。如上所述的類似功能可用于通過根據(jù)用戶的頭部的位置改變投射到每個(gè)用戶的波束的角度來提高向我播送功能的性能。根據(jù)陣列的復(fù)雜度和性能,即使在延伸的距離處,能夠?qū)为?dú)的波束發(fā)送到用戶的每個(gè)耳朵且將DSoP與虛擬化系統(tǒng)組合以允許虛擬的環(huán)繞聲也可能是可能的。根據(jù)本發(fā)明的另一方面,另一組完全獨(dú)立的兩個(gè)或多個(gè)波束用于通過以如上所述的方式使每個(gè)額外的一組波束定向到相應(yīng)的額外的收聽者來將聲音或3D聲傳遞到一個(gè)或多個(gè)額外的收聽者。由于陣列揚(yáng)聲器的線性,額外的波束在很大程度上不受其它波束的存在的影響,只要總的輻射功率保持在換能器通道的每一個(gè)的標(biāo)稱線性能力內(nèi)。此外,因?yàn)閷?duì)每個(gè)收聽者的波束組可以通過適當(dāng)?shù)厥共ㄊㄏ虿⒕劢沟皆撌章犝卟⑼ㄟ^對(duì)所關(guān)注的頻率/波長(zhǎng)的適當(dāng)?shù)匾莱叽缧纬蓳P(yáng)聲器陣列以實(shí)現(xiàn)足夠的波束方向性(即,適當(dāng)?shù)卣牟ㄊ?來相對(duì)地定位到該收聽者附近,額外的波束將不會(huì)造成對(duì)其他收聽者的不可接受的額外的串?dāng)_。圖3示出了一種實(shí)施方式,其中頭部跟蹤系統(tǒng)包括兩個(gè)攝像機(jī)6a、6b。攝像機(jī)6a、6b被水平地間隔開,且都使預(yù)期的收聽位置成像。攝像機(jī)的分離允許重建3D圖像,并且還允許計(jì)算收聽者的頭部離陣列的距離。然后,這可用于更精確地將波束聚焦在收聽者的耳朵的位置處??臻g參數(shù)識(shí)別在本發(fā)明的第三方面,DSoP結(jié)合視覺顯示器使用,且對(duì)幾個(gè)通道聲音波束中的一個(gè)或多個(gè)的通道設(shè)置(例如波束方向、波束焦距、通道頻率響應(yīng))根據(jù)驅(qū)動(dòng)視覺顯示器的視頻信號(hào)的空間參數(shù)實(shí)時(shí)地(或近似實(shí)時(shí)地)被動(dòng)態(tài)地修改。所謂空間參數(shù)指的是在視頻信號(hào)中固有的信息,該視頻信號(hào)涉及該場(chǎng)景中的一個(gè)或多個(gè)物體的(作為視頻信號(hào)的結(jié)果,視頻顯示器所描繪的真實(shí)或虛擬場(chǎng)景的)空間中的逐幀位置。
(僅僅)為了討論的目的,我們定義了一組笛卡爾軸以如下描述場(chǎng)景物體位置如在顯示屏上看到的,X-軸從左到右為正;如在顯示屏上看到的,Y軸從下到上為正;z-軸從屏幕垂直地出來朝著觀看者為正。例如,如果在一個(gè)場(chǎng)景中的主要物體是大半朝著攝像機(jī)觀察位置行駛的車輛,那么它的Z-軸位置將正向增加,且如果它在這么做時(shí)稍微從左到右且從上到下正移動(dòng),它的X-軸位置將正向增加且Y-軸位置減小(負(fù)向)。在本發(fā)明的這個(gè)第三方面,由DSoP通道的一個(gè)或多個(gè)發(fā)射的聲音可以具有其波束角和/或焦距和/或增益和/或通道頻率響應(yīng)(或其它“通道設(shè)置”),其在視覺顯示器上的視覺場(chǎng)景的顯示過程期間實(shí)時(shí)地(或近似實(shí)時(shí)地)且以相互關(guān)聯(lián)的方式根據(jù)在場(chǎng)景中描繪的一個(gè)或多個(gè)物體的X和/或Y和/或Z軸位置的變化而被動(dòng)態(tài)修改。以這種方式,觀看者(=收聽者)對(duì)所述物體的運(yùn)動(dòng)(及動(dòng)態(tài)位置)的感知將被她從組合的DsoP/視覺顯示器輸出(聲音和視覺)接收到的感知的相關(guān)的變化加強(qiáng)。應(yīng)理解,本文中對(duì)DSoP的提及指的是聲學(xué)換能器的任何類型的(3個(gè)或更多個(gè))陣列,其中(至少)對(duì)2個(gè)或更多個(gè)換能器的信號(hào)延遲可以被實(shí)時(shí)地改變,以便修改總的DSoP聲音波束輻射模式,而且為了本發(fā)明的目的,沒有必要另外從墻壁或其它物體反彈DSoP波束的任何一個(gè),盡管這樣做可以產(chǎn)生如在 用于環(huán)繞聲的產(chǎn)生的DsoP的正常使用中的額外的有益的聲效應(yīng)。在圖4中,投音機(jī)I在其音頻輸入端口 16處接收音頻輸入信號(hào)26且在其波束控制輸入端15處從源11接收聲音波束控制參數(shù)信息17,源11又從施加到其視頻輸入端口12的視頻輸入信號(hào)21實(shí)時(shí)地得到其輸出。視覺顯示器10在其視頻輸入端口 22接收相同的視頻輸入信號(hào)21。位于投音機(jī)I的前面某處的收聽者3聽到可能從反射面30反彈的聲音波束40。聲音波束聚焦在位置41處,且從投音機(jī)軸線以角度42被轉(zhuǎn)向。根據(jù)視頻節(jié)目素材,位置41和角度47通過聲音波束控制參數(shù)信息17的應(yīng)用而實(shí)時(shí)地改變。視覺顯示器可以是標(biāo)準(zhǔn)的2D顯示器或更高級(jí)的3D顯示器。在任何一種情況下,視頻信號(hào)可以是2D信號(hào)或增強(qiáng)的3D信號(hào)(盡管在這種情況下,2D顯示器將不能清晰地顯示第三(Z)維)。重要地認(rèn)識(shí)到,2D和3D空間參數(shù)是2D和3D視頻信號(hào)中固有的(如果不是這種情況,那么看2D顯示器的觀看者將根本沒有深度的感覺,這完全不是這種情況)。觀看人員通常借助于大量視覺線索以及或許還通過由任何伴音軌道提供的非視覺線索的多半無意識(shí)的分析來推斷甚至在2D圖像中的深度,視覺線索包括物體圖像(相對(duì))尺寸、物體堵塞、煙霧和背景。這些非視覺線索包括多普勒效應(yīng)(發(fā)射聲音且朝著或遠(yuǎn)離用于記錄聲音的麥克風(fēng)移動(dòng)的在場(chǎng)景中的物體將遭受音高(pitch)變化,通常接近具有音高的相對(duì)增加的物體)、聲音響度變化(發(fā)射聲音、朝著和遠(yuǎn)離麥克風(fēng)移動(dòng)的物體將遭受振幅變化,通常是隨著距離的增加的總的水平減小)以及聲音頻率響應(yīng)變化(發(fā)射聲音、朝著和遠(yuǎn)離麥克風(fēng)移動(dòng)的物體將遭受頻率響應(yīng)變化,通常是高頻內(nèi)容隨著距離的相對(duì)降低)。顯然,在為3D視覺顯示器預(yù)備的3D信號(hào)中,有額外的明確的3D信息(例如,以左圖像和右圖像視頻信號(hào)或至少L-R信號(hào)差異的形式),而且觀看者不需要使用這樣的3D顯示器執(zhí)行相當(dāng)多的視覺線索分析以便實(shí)現(xiàn)視覺深度感覺。然而,這樣的分析將仍然由觀看者執(zhí)行,且只要它與在左圖像和右圖像信號(hào)中的差異中編碼的立體深度信息充分相關(guān),增強(qiáng)的深度感覺將產(chǎn)生。在本發(fā)明的這個(gè)方面,空間參數(shù)處理器裝置可被提供以分析音頻信號(hào)和/或視頻信號(hào)(2D或3D視頻信號(hào)),并從那些信號(hào)中實(shí)時(shí)地(即,與場(chǎng)景變化的動(dòng)態(tài)相比,具有小的延遲,因此例如在毫秒到一秒的幾分之一而不是幾秒的時(shí)間尺度上)提取相同類型的空間信息中的一些,該空間信息是觀看者將從在聲音重放系統(tǒng)上收聽聲音和/或在視覺顯示器上觀看場(chǎng)景中提取的,包括場(chǎng)景中的一個(gè)或多個(gè)物體并且特別是可能負(fù)責(zé)聲道上的一些聲音的那些場(chǎng)景對(duì)象的一些或全部x、Y、z坐標(biāo)。在視覺顯示器被提供的情況下,有用的是,這樣提取的參數(shù)或多或少地具有觀看者提取的相同類型和大小的空間信息,因?yàn)榉駝t基于這些提取到的空間參數(shù)所做出的對(duì)DSoP波束參數(shù)的變化將不與觀看者自己的視覺體驗(yàn)充分相關(guān),而且將替代地導(dǎo)致令人不適的而不是增強(qiáng)的觀看/收聽體驗(yàn),當(dāng)然,除非這是預(yù)期的效果。在只有DSoP被提供(即沒有視覺顯示器)的情況下,則可以更自由地對(duì)各種通道波束參數(shù)做出修改,因?yàn)檫@些修改在收聽者中產(chǎn)生的任何空間感覺不能與任何在視覺上被感知的視覺感覺抵觸,因?yàn)樵谶@種情況下沒有任何東西。因此,在這后一種情況下,更極端或更不“準(zhǔn)確”的處理可被應(yīng)用以增強(qiáng)空間(聲音)感覺,有產(chǎn)生收聽者不適的較小可能性。例如,這樣的空間參數(shù)處理器可以簡(jiǎn)單地從已通常在視頻攝像機(jī)(包括家用高清(HD)視頻攝像機(jī))中找到的本文在上面描述的類型的處理器得到,視頻攝像機(jī)能夠或多或少實(shí)時(shí)地識(shí)別和跟蹤人的臉部,并在攝像機(jī)的視覺顯示器上顯示界定臉部的矩形。這樣界定的矩形的尺寸給出了相關(guān)的臉部Z-距離的第一估算(大多數(shù)成年人的臉部在絕對(duì)尺寸上是非常類似的),而且該矩形的重心給出了場(chǎng)景中的臉部X、Y中心坐標(biāo)的很好的估計(jì)。 因此,使用每個(gè)跟蹤的臉部的這樣的參數(shù)中的變化以改變創(chuàng)建與該臉部相關(guān)的聲音的任何DSoP波束的波束參數(shù)可以提供增強(qiáng)的物體運(yùn)動(dòng)感覺。明顯地,針對(duì)當(dāng)前目的特別設(shè)計(jì)的處理器可以比現(xiàn)有的攝像機(jī)“人/臉部觀測(cè)器”完成更好的工作,最特別地是在確定主要的移動(dòng)物體以及最可能產(chǎn)生特定的聲音的物體的區(qū)域中(且該任務(wù)可通過使從前、左、右、左后、右后等通道的分析中確定的聲場(chǎng)內(nèi)的空間變化相互關(guān)聯(lián)來增強(qiáng),該分析結(jié)合這些變化的相關(guān)性來進(jìn)行,空間變化在視覺圖像中被檢測(cè)),但這個(gè)例子被提出以使下列事實(shí)明確甚至現(xiàn)有技術(shù)狀態(tài)的市場(chǎng)上可買到的低成本家用細(xì)分產(chǎn)品已經(jīng)具有驅(qū)動(dòng)和本發(fā)明一樣的系統(tǒng)所需的一些能力。在本發(fā)明的另一方面,DsoP結(jié)合視覺顯示器被最有用地但不排他地使用,且針對(duì)幾個(gè)通道聲音波束中的一個(gè)或多個(gè)的通道設(shè)置(包括波束方向、焦距、通道增益、通道頻率響應(yīng)中的一個(gè)或多個(gè))根據(jù)元數(shù)據(jù)來修改,元數(shù)據(jù)被嵌入驅(qū)動(dòng)音頻系統(tǒng)和/或視覺顯示器的音頻和/或視頻信號(hào)中或與音頻和/或視頻信號(hào)一起提供。在這種情況下,這樣的元數(shù)據(jù)明確地描述了關(guān)于音頻的(視覺)場(chǎng)景的空間方面,其也可使用任何視覺信號(hào)描繪,而且明確地提供處理器裝置(例如SPP)以從音頻和/或視頻信號(hào)本身提取空間參數(shù)是不必要的。盡管如此,可能仍然需要元數(shù)據(jù)本身的一些處理以便產(chǎn)生直接適用于DSoP的幾個(gè)波束的控制參數(shù),以便使用原始的視覺場(chǎng)景以及因此提供的任何視頻信號(hào)創(chuàng)建聲場(chǎng)變化的期望相關(guān)性。雖然沒有用于在廣播無線電或電視信號(hào)中嵌入這樣的元數(shù)據(jù)的通用標(biāo)準(zhǔn),而且迄今,也在CD/DVD/藍(lán)光磁盤記錄中,合適的節(jié)目素材的立即可用的源可以在電腦游戲中找至IJ,其中計(jì)算機(jī)程序總是“知道”真實(shí)的物體在哪里(畢竟它正產(chǎn)生所有這樣的“虛擬的”物體),這使這樣的元數(shù)據(jù)的額外生成附加到任何現(xiàn)有的游戲相對(duì)容易。在沒有視覺顯示器的情況下使用具有嵌入的元數(shù)據(jù)的系統(tǒng)也是可能的,其中根據(jù)(從視覺信號(hào)、音頻信號(hào)和任何元數(shù)據(jù)中的任何一種或全部)提取到的空間信息參數(shù)通過修改DSoP波束參數(shù)來產(chǎn)生增強(qiáng)的體驗(yàn),使得重放的聲場(chǎng)單獨(dú)地向收聽者提供額外的2D和/或3D空間線索。此外,在空間參數(shù)處理器能夠從僅僅或結(jié)合元數(shù)據(jù)的使用的多通道聲音信號(hào)的分析中或者完全從元數(shù)據(jù)的使用中簡(jiǎn)單地得到有用的空間參數(shù)的情況下,使用這樣的系統(tǒng)可能是有利的,即使在沒有視頻信號(hào)時(shí),所述元數(shù)據(jù)作為聲音信號(hào)的部分或與聲音信號(hào)一起被包括。這樣的系統(tǒng)可顯著增強(qiáng)無線電廣播節(jié)目以及錄制的音樂和其它音頻素材的用戶體驗(yàn)。在本發(fā)明的這些方面,確定如何修改各種DSoP波束通道參數(shù)以便通過提供空間參數(shù)處理器或者更直接地從與聲音和/或視覺通道信息相關(guān)的元數(shù)據(jù)或者兩者來提供增強(qiáng)的空間觀看和/或收聽體驗(yàn)是必要的,假設(shè)場(chǎng)景空間參數(shù)(與場(chǎng)景中描繪的物體及其變化有關(guān)的)是可用的。通道的聲音波束發(fā)射角(波束相對(duì)于DSoP正面的法線的上/下角及左/右角,下文中是高度及方位角)可根據(jù)場(chǎng)景空間參數(shù)(SSP)修改以直接修改收聽者所感知的該通道的位置。這適用于任何通道波束,該波束在用于環(huán)繞聲重放的DSoP的使用的現(xiàn)今常規(guī)模式中主要通過一個(gè)或多個(gè)房間表面反彈(反射)——因此通常是例如左-前和 右-前、左-后和右-后、高度通道、天花板通道等一到達(dá)收聽者。對(duì)于這些情況中的每一個(gè),在通道的感知的源角坐標(biāo)(即,收聽者為中心的源坐標(biāo)角度)和如所發(fā)射的通道波束的高度/方位角(alt/az)之間有直接的關(guān)系。例如,對(duì)于左前波束,增加方位角(使波束更靠近DSoP的前表面彎曲)將左壁反彈位置移動(dòng)得更靠近房間的前面,這又使由收聽者感測(cè)的通道的角位置朝房間的前面進(jìn)一步移動(dòng),使得聲源位置又被感知為變得更靠近投音機(jī)的中心(Ixl減小)。然而,注意,這種效應(yīng)在墻壁反射在某種程度擴(kuò)射的程度上在更大的角范圍上出現(xiàn)。如果只發(fā)生鏡面反射(完全平整的反彈點(diǎn)),那么感知到的源移動(dòng)可以只發(fā)生在投音機(jī)的有限寬度所允許的范圍內(nèi),投音機(jī)不是一個(gè)點(diǎn)源,且如收聽者所感知的、在墻壁中被反射的其聲音圖像具有有限范圍。因此,在移動(dòng)的可用性的范圍內(nèi)的靈活性通過提供更寬的DSoP來增強(qiáng)。類似地,增加所發(fā)射的左前波束的高度引起在左墻壁上的反彈點(diǎn),并且在反射是擴(kuò)射的以及DSoP具有垂直廣度的程度上,所感知的聲音位置(再次在墻壁中反射的DSoP的聲音圖像)將向上移動(dòng)。通道的波束焦距可被調(diào)整以修改如收聽者所感知的波束的會(huì)聚角,其在正常情況下與所感知的源距離相關(guān)。然而,對(duì)于明顯大于DsoP寬度(和/或在2D DsoP情況下的高度)的收聽者距離,可實(shí)現(xiàn)的會(huì)聚角的范圍是小的。如由附近的收聽者直接感知的有限的聲源(例如電動(dòng)車)會(huì)對(duì)著在收聽者處的相對(duì)寬的角度。然而,即使假設(shè)來自汽車的全范圍的輻射是同相的(相位相干),仍將有至多一個(gè)近似的平面波到達(dá)收聽者。對(duì)于較小的聲源(或占優(yōu)勢(shì)的聲源,例如發(fā)動(dòng)機(jī)或排氣裝置),發(fā)射的波場(chǎng)接近于以該源為中心的一組同心圓,當(dāng)該源接近收聽者時(shí),收聽位置處的曲率半徑變得更小。因此,使用DSoP,為了使聲音顯得更靠近收聽者同時(shí)在收聽者的位置處保持波束強(qiáng)度恒定,波束焦點(diǎn)應(yīng)被引入到DsoP以在收聽者處產(chǎn)生最小曲率半徑——當(dāng)焦距為從DsoP到收聽者的波束路徑長(zhǎng)度的大約一半時(shí),這種條件被實(shí)現(xiàn),此時(shí),聲音被感知為從焦點(diǎn)位置發(fā)出,因?yàn)檫@是所接收到的波場(chǎng)的曲率的中心。當(dāng)在收聽者的位置上直接聚焦時(shí),聲音到達(dá),會(huì)聚到現(xiàn)在是曲率的中心的收聽者上。通道的增益可與源距離成反比地被調(diào)整,以給出該距離的感覺。這顯然是這種情況,因?yàn)楫?dāng)源聲音移動(dòng)得越靠近,恒定水平的源聲音就越大。
最后,通道的頻率響應(yīng)可被修改以給出距離的感覺,因?yàn)楦哳l聲音更容易被吸收、反射和衍射(或更一般地,被擴(kuò)散),使得越遠(yuǎn)離源,則其頻譜的高頻分量相對(duì)越減小。因此,為了強(qiáng)調(diào)聲源的距離,可提供具有例如與距離成比例的頂部切削的濾波器。在收聽者靠近DsoP (例如可與投音機(jī)的寬度相比較的距離)的情況下,則換能器陣列將在一個(gè)或兩個(gè)方向上對(duì)著收聽者處的相當(dāng)大的角度,取決于投音機(jī)是否是ID或2D陣列。在更通常在例如個(gè)人計(jì)算機(jī)(PC)中找到的這種接近收聽配置中,其中DsoP通?;蚨嗷蛏俚匕惭b在顯示屏的平面中或者甚至與屏幕成一體,并且還例如在汽車應(yīng)用中,其中DsoP可安裝在擋風(fēng)玻璃之上或儀表板內(nèi),則對(duì)3D聲的另一種工作模式是可能的。在這些情況下,收聽者多半在DsoP的一般方向上看,DsoP根據(jù)其長(zhǎng)度和接近度對(duì)著在收聽者處的相當(dāng)大的角度。在本發(fā)明的另一方面,如果單個(gè)聲音波束聚焦在換能器的平面之后(S卩,負(fù)的焦距或虛焦點(diǎn))且波束被指向所選擇的角度,那么收聽者將能夠以感知的方式找出它在X (即,從左到右)(和對(duì)于2D DsoP陣列是Y,且因而從底部到頂部)上以及在Z (離用戶的表觀距 離)上的位置,并且這些位置坐標(biāo)可以簡(jiǎn)單地通過改變波束角和波束焦距被實(shí)時(shí)地改變。在虛焦點(diǎn)位置處的虛擬源將使DsoP發(fā)射以虛擬源為中心的近似柱面波或球面波,且因此創(chuàng)建的聲波的結(jié)構(gòu)將使收聽者感知到她聽到的聲音的源的位置是在虛擬焦點(diǎn)位置處。多個(gè)同時(shí)的波束(每個(gè)具有其自己的不同的通道節(jié)目素材和波束轉(zhuǎn)向角和焦距)因此可以在相對(duì)于用戶的多個(gè)不同的位置上放置多個(gè)不同的(虛擬)源(如果需要的話,所有源可以是時(shí)間變化的)。DsoP的這種能力能夠以使用傳統(tǒng)的環(huán)繞聲揚(yáng)聲器且特別是使用簡(jiǎn)單的立體聲揚(yáng)聲器是完全不可能的方式為收聽者提供高度可配置的且可控制的3D聲景。圖5示出了投音機(jī)1,其包括位于收聽者3附近的聲換能器5的陣列,聲音波束被定向和聚焦以便產(chǎn)生虛擬焦點(diǎn)2。效果是使投音機(jī)I發(fā)射近似柱面的(或球面的)波4,然后收聽者3將波4感知為起源于點(diǎn)2,到達(dá)她的右側(cè)及投音機(jī)I的后面。本發(fā)明的這個(gè)方面可與如上所述的SPP或與同樣如上所述的元數(shù)據(jù)結(jié)合使用,而且在任一種情況下,如此得到的聲音位置參數(shù)可用于控制在接近收聽位置中創(chuàng)建的多個(gè)源中的一個(gè)或多個(gè)的波束參數(shù),如前面所述。如果提供覆蓋投影屏幕的相當(dāng)大的寬度的DsoP(而且也在2D中,如果DsoP也覆蓋屏幕高度的相當(dāng)大一部分),相同的接近收聽配置可以在某種程度上也在影院(電影院)中實(shí)現(xiàn)。對(duì)于坐在前面幾排(其中運(yùn)行良好的排的數(shù)目由屏幕的總寬度和DsoP的寬度確定)中的電影院顧客,接近收聽將是可能的。然而,假設(shè)DsoP陣列被延伸而超出屏幕的寬度,并且其后可能還沿著電影院的側(cè)壁沿電影院觀眾坐著的空間的一些或所有側(cè)面從屏幕延伸,那么接近收聽3D效果原則上可以擴(kuò)展到如所需的一樣多的電影院座位排。沒有DsoP換能器陣列需要都在單個(gè)平面上的基本要求。隨著3D電影的即將來臨的普及,增加長(zhǎng)的(寬的)以及可能“環(huán)繞式的” DsoP將允許為3D電影觀看體驗(yàn)提供真正的3D聲。還應(yīng)注意,如上對(duì)電影院描述的“環(huán)繞式"DsoP配置還可以方便地設(shè)置在汽車應(yīng)用中,其中車艙為這樣的設(shè)備提供了理想的空間,以為車輛的乘員提供全3D環(huán)繞。合理地,對(duì)PC的DsoP側(cè)擴(kuò)展也可以被提供來擴(kuò)展屏幕平面DsoP安裝的3D聲角能力。
權(quán)利要求
1.ー種音頻系統(tǒng),包括 多個(gè)揚(yáng)聲器,其用于發(fā)射音頻信號(hào);以及 頭部跟Ife系統(tǒng); 其中所述頭部跟蹤系統(tǒng)配置成估計(jì)收聽者的在空間中的頭部位置; 其中所述收聽者的頭部的所估計(jì)的位置用于改變所述音頻信號(hào)。
2.如權(quán)利要求I所述的音頻系統(tǒng),其中所述頭部跟蹤系統(tǒng)包括結(jié)合軟件算法的ー個(gè)或多個(gè)攝像機(jī)。
3.如前述權(quán)利要求中的任一項(xiàng)所述的音頻系統(tǒng),其中兩個(gè)或多個(gè)單獨(dú)定向的聲音波束由所述多個(gè)揚(yáng)聲器發(fā)射。
4.如權(quán)利要求3所述的音頻系統(tǒng),其中視頻攝像機(jī)用于檢測(cè)所述頭部位置,且所述聲音波束相應(yīng)地被定向。
5.如權(quán)利要求4所述的音頻系統(tǒng),其中一個(gè)或多個(gè)收聽者的頭部位置由所述視頻攝像機(jī)實(shí)時(shí)跟蹤,且所述聲音波束相應(yīng)地被定向。
6.如權(quán)利要求3、4或5中的任一項(xiàng)所述的音頻系統(tǒng),其中ー個(gè)聲音波束被定向到收聽者的左耳,而另ー個(gè)聲音波束被定向到收聽者的右耳。
7.如權(quán)利要求6所述的音頻系統(tǒng),其中左定向的所述波束聚焦在與所述收聽者的左耳離所述揚(yáng)聲器的距離對(duì)應(yīng)的距離處,而右定向的所述波束聚焦在與所述收聽者的右耳離所述揚(yáng)聲器的距離對(duì)應(yīng)的距離處。
8.如權(quán)利要求3、4或5中的任一項(xiàng)所述的音頻系統(tǒng),其中聲音波束靠近收聽者的兩耳中的每ー個(gè)而聚焦,其中所述兩個(gè)聲音波束被配置成再現(xiàn)立體聲或結(jié)合頭部相關(guān)的傳遞函數(shù)處理來再現(xiàn)環(huán)繞聲。
9.如前述權(quán)利要求中的任一項(xiàng)所述的音頻系統(tǒng),其中頭部相關(guān)的傳遞函數(shù)和/或心理聲學(xué)算法用于傳遞虛擬的環(huán)繞聲體驗(yàn),且其中這些算法的參數(shù)基于所測(cè)量的用戶頭部位置而改變。
10.如權(quán)利要求9所述的音頻系統(tǒng),其中所述頭部相關(guān)的傳遞函數(shù)包括參數(shù),且所述音頻系統(tǒng)布置成實(shí)時(shí)地改變所述頭部相關(guān)的傳遞函數(shù)的所述參數(shù)。
11.如前述權(quán)利要求中的任一項(xiàng)所述的音頻系統(tǒng),其中揚(yáng)聲器的陣列與音頻信號(hào)一起使用,所述音頻信號(hào)干涉以產(chǎn)生對(duì)所述陣列成不同的角度投射的多個(gè)聲音波束,且其中所述波束的角度使用所述頭部跟蹤系統(tǒng)來控制,以便將所述波束定向到所述ー個(gè)或多個(gè)用戶的耳朵,以便允許所述波束在所述ー個(gè)或多個(gè)用戶移動(dòng)時(shí)保持定向到所述耳朵。
12.—種音頻系統(tǒng),包括 多個(gè)揚(yáng)聲器,其用于發(fā)射音頻信號(hào); 其中兩個(gè)或多個(gè)單獨(dú)定向的聲音波束由所述多個(gè)揚(yáng)聲器發(fā)射; 其中ー個(gè)聲音波束被配置成聚焦在收聽者的左耳處,而另ー個(gè)聲音波束被配置成聚焦在收聽者的右耳處。
13.如前述權(quán)利要求中的任一項(xiàng)所述的音頻系統(tǒng),其中所述多個(gè)揚(yáng)聲器布置在陣列中。
14.如前述權(quán)利要求中的任一項(xiàng)所述的音頻系統(tǒng),其中立體聲或環(huán)繞聲被傳遞到ー個(gè)或多個(gè)收聽者。
15.如權(quán)利要求3至8或12至14中的任一項(xiàng)所述的音頻系統(tǒng),還包括指向額外的收聽者的波束。
16.如權(quán)利要求7、8或12至15中的任一項(xiàng)所述的音頻系統(tǒng),其中所述兩個(gè)聲音波束的聚焦位置根據(jù)所述收聽者的頭部的移動(dòng)來移動(dòng)。
17.如前述權(quán)利要求中的任一項(xiàng)所述的音頻系統(tǒng),其中應(yīng)用了串?dāng)_消除。
18.如前述權(quán)利要求中的任一項(xiàng)所述的音頻系統(tǒng),其中每個(gè)波束攜帯3D聲節(jié)目的不同分量。
19.ー種音頻系統(tǒng),包括多個(gè)揚(yáng)聲器的陣列和頭部跟蹤系統(tǒng),所述多個(gè)揚(yáng)聲器的陣列能夠在不同方向上引導(dǎo)密集的聲音波束,所述頭部跟蹤系統(tǒng)包括結(jié)合軟件算法的ー個(gè)或多個(gè)攝像機(jī)以估計(jì)所述系統(tǒng)的一個(gè)或多個(gè)用戶的在空間中的頭部位置,其中所述ー個(gè)或多個(gè)用戶的頭部的所述位置用于改變由所述揚(yáng)聲器陣列的每個(gè)揚(yáng)聲器發(fā)送的所述音頻信號(hào),使得単獨(dú)的音頻波束被定向到不同的用戶而在波束之間有很少串?dāng)_,且其中所述波束的方向根 據(jù)所述用戶的所測(cè)量的位置而改變。
20.—種音頻系統(tǒng),包括多個(gè)揚(yáng)聲器的陣列和攝像機(jī)識(shí)別系統(tǒng),所述多個(gè)揚(yáng)聲器的陣列能夠在不同方向上引導(dǎo)密集的聲音波束,所述攝像機(jī)識(shí)別系統(tǒng)包括結(jié)合軟件算法的ー個(gè)或多個(gè)攝像機(jī)以估計(jì)房間中的特征,例如墻壁,其中對(duì)所述房間的幾何形狀的所述估計(jì)用于確定不同音頻波束的設(shè)置,通常確定每個(gè)波束的方向和焦點(diǎn),以允許所述波束從所述房間的存在的墻壁和特征適當(dāng)?shù)胤磸?,以便將真正的環(huán)繞聲體驗(yàn)傳遞給ー個(gè)或多個(gè)用戶。
21.一種能夠使用控制系統(tǒng)產(chǎn)生多個(gè)聲音波束的投音機(jī),所述控制系統(tǒng)被配置成使得波束角、波束焦距、增益和頻率響應(yīng)的波束參數(shù)中的一個(gè)或多個(gè)根據(jù)正被重放的節(jié)目素材中的聲源的2D和3D位置及運(yùn)動(dòng)來實(shí)時(shí)地改變。
22.如權(quán)利要求21所述的投音機(jī),其結(jié)合視覺顯示器,其中對(duì)幾個(gè)通道聲音波束中的一個(gè)或多個(gè)的投音機(jī)通道波束設(shè)置根據(jù)驅(qū)動(dòng)所述視覺顯示器的視頻信號(hào)的空間參數(shù)而被動(dòng)態(tài)地實(shí)時(shí)修改。
23.如權(quán)利要求21或22所述的投音機(jī),其中所述空間參數(shù)由第一空間參數(shù)處理器裝置得到,所述第一空間參數(shù)處理器裝置分析視頻輸入信號(hào)并實(shí)時(shí)地根據(jù)所述視頻信號(hào)計(jì)算所述空間參數(shù)。
24.如權(quán)利要求21至23中的任一項(xiàng)所述的投音機(jī),其中所述空間參數(shù)由第二空間參數(shù)處理器裝置得到,所述第二空間參數(shù)處理器裝置分析音頻輸入信號(hào)并實(shí)時(shí)地根據(jù)所述音頻信號(hào)計(jì)算所述空間參數(shù)。
25.如權(quán)利要求21至22中的任一項(xiàng)所述的投音機(jī),其中所述空間參數(shù)由空間參數(shù)處理器裝置得到,所述空間參數(shù)處理器裝置分析視頻輸入信號(hào)和音頻輸入信號(hào)并基于這兩個(gè)信號(hào)的組合來計(jì)算所述空間參數(shù)。
26.如權(quán)利要求21至25中的任一項(xiàng)所述的投音機(jī),其中所述通道波束參數(shù)根據(jù)和所述視頻輸入信號(hào)和/或所述音頻輸入信號(hào)一起提供的元數(shù)據(jù)來被實(shí)時(shí)地修改。
27.如權(quán)利要求21至26中的任一項(xiàng)所述的投音機(jī),其中對(duì)接近的收聽位置優(yōu)化ー個(gè)或多個(gè)波束的波束參數(shù)。
28.如權(quán)利要求27所述的投音機(jī),其中所述收聽位置離所述投音機(jī)的距離具有與所述投音機(jī)的寬度相同的數(shù)量級(jí)。
29.如權(quán)利要求27所述的投音機(jī),其中所述投音機(jī)對(duì)著在所述收聽位置處的大于20度的角度。
30.如權(quán)利要求21至29中的任一項(xiàng)所述的投音機(jī),其中波束聚焦位置能夠在所述投音機(jī)的平面的前面或后面,以便表示節(jié)目素材中的聲源的z位置。
31.如前述權(quán)利要求中的任一項(xiàng)所述的投音機(jī)或設(shè)備,其與視頻顯示器、電視機(jī)、個(gè)人計(jì)算機(jī)或游戲控制臺(tái)一起使用。
全文摘要
本發(fā)明結(jié)合頭部跟蹤系統(tǒng),例如通常用于用戶頭部和眼睛跟蹤的攝像機(jī)系統(tǒng),其具有多個(gè)揚(yáng)聲器以便增強(qiáng)用戶的音頻體驗(yàn)。用戶的位置可用于改變發(fā)送到多個(gè)揚(yáng)聲器的音頻信號(hào)以改善諸如環(huán)繞聲的功能。此外,當(dāng)結(jié)合可以產(chǎn)生密集的聲音波束的揚(yáng)聲器的陣列時(shí),攝像機(jī)系統(tǒng)可用于引導(dǎo)在不同用戶處的不同聲音波束,而實(shí)質(zhì)上沒有串?dāng)_,以便允許用戶體驗(yàn)來自同一音頻系統(tǒng)的不同媒體,且其容忍改變的用戶位置。此外,攝像機(jī)系統(tǒng)可幫助設(shè)置用于真實(shí)環(huán)繞聲傳遞的陣列,其從墻壁反彈聲音波束。另外可使用串?dāng)_消除。聲音波束可以實(shí)時(shí)地表示2-D或3-D聲源。聲音波束參數(shù)被調(diào)整以實(shí)時(shí)地為收聽者提供音頻-視覺節(jié)目素材的聲音產(chǎn)生實(shí)體的2-D或3-D位置和移動(dòng)的感覺。所使用的波束參數(shù)包括波束方向、波束焦距、頻率響應(yīng)和增益。產(chǎn)生3-D聲源的實(shí)時(shí)表示的這樣的投音機(jī)可以單獨(dú)地或結(jié)合視頻顯示器、電視機(jī)、個(gè)人計(jì)算機(jī)或游戲控制臺(tái)使用。
文檔編號(hào)H04S7/00GK102860041SQ201180020421
公開日2013年1月2日 申請(qǐng)日期2011年4月20日 優(yōu)先權(quán)日2010年4月26日
發(fā)明者安東尼·胡利, 理查德·托普利斯 申請(qǐng)人:劍橋機(jī)電有限公司