本申請(qǐng)要求于2013年12月13日提交的美國(guó)臨時(shí)專利申請(qǐng)序列號(hào)61/916,009及2014年4月22日提交的美國(guó)臨時(shí)專利申請(qǐng)序列號(hào)61/982,778的優(yōu)先權(quán),其內(nèi)容通過(guò)引用并入本文中。
技術(shù)領(lǐng)域
本發(fā)明大體上涉及數(shù)字音頻信號(hào)的處理。更具體而言,本發(fā)明涉及音場(chǎng)增強(qiáng)的技術(shù)。
背景技術(shù):
音場(chǎng)是立體聲場(chǎng)景的左側(cè)極限與右側(cè)極限之間感知的距離。立體聲圖像包括出現(xiàn)的占據(jù)音場(chǎng)的幻像圖像。為了傳達(dá)自然的收聽環(huán)境,需要良好的立體聲圖像。平而窄的立體聲圖像使得所有聲音被感知為都來(lái)自一個(gè)方向,且因此聲音呈現(xiàn)為單聲道的。
消費(fèi)者電子裝置(例如,臺(tái)式計(jì)算機(jī)、膝上計(jì)算機(jī)、平板計(jì)算機(jī)、可穿戴計(jì)算機(jī)、游戲機(jī)、電視機(jī)等等)通常包括揚(yáng)聲器。令人遺憾的是,空間限制導(dǎo)致了差的音場(chǎng)性能。已經(jīng)嘗試了使用頭相關(guān)傳遞函數(shù)(HRTF)來(lái)解決此問(wèn)題。HRTF用于產(chǎn)生虛擬環(huán)繞聲揚(yáng)聲器。令人遺憾的是,HRTF基于個(gè)人的耳朵和體型。因此,任何其它耳朵會(huì)經(jīng)歷具有退化的聲定位的空間失真。
因此,將期望的是在消費(fèi)者裝置中獲得提高的音場(chǎng)性能,而不依靠合成或測(cè)量的HRTF。
技術(shù)實(shí)現(xiàn)要素:
一種非瞬態(tài)計(jì)算機(jī)可讀儲(chǔ)存介質(zhì),其具有可由處理器執(zhí)行的指令,用于分辨數(shù)字音頻輸入信號(hào)的右聲道和左聲道內(nèi)的中心分量、側(cè)分量和環(huán)境分量。空間比由中心分量和側(cè)分量確定。數(shù)字音頻輸入信號(hào)基于空間比被調(diào)整以形成預(yù)處理信號(hào)。遞歸串?dāng)_消除處理在預(yù)處理信號(hào)上執(zhí)行,以形成串?dāng)_消除的信號(hào)。該串?dāng)_消除的信號(hào)的中心分量在后處理操作中被重新校正,以產(chǎn)生數(shù)字音頻輸出。
附圖說(shuō)明
本發(fā)明結(jié)合參照附圖的以下詳細(xì)描述來(lái)被更完整的認(rèn)識(shí)到,在附圖中:
圖1示出了根據(jù)本發(fā)明的實(shí)施例配置的消費(fèi)者電子裝置。
圖2示出了根據(jù)本發(fā)明的實(shí)施例的信號(hào)處理。
圖3示出了根據(jù)本發(fā)明的實(shí)施例配置的聲音增強(qiáng)模塊。
圖4示出了與聲音增強(qiáng)模塊的預(yù)處理階段相關(guān)聯(lián)的處理操作。
圖5示出了與聲音增強(qiáng)模塊的后處理階段相關(guān)聯(lián)的處理操作。
相似的參考數(shù)字是指貫穿附圖的若干視圖各處的對(duì)應(yīng)部分。
具體實(shí)施方式
圖1示出了根據(jù)本發(fā)明的實(shí)施例配置的數(shù)字消費(fèi)者電子裝置100。裝置100包括標(biāo)準(zhǔn)構(gòu)件,如,中央處理單元110和經(jīng)由總線114連接的輸入/輸出裝置112。輸入/輸出裝置112可包括鍵盤、鼠標(biāo)、觸摸顯示器、揚(yáng)聲器等等。網(wǎng)絡(luò)接口電路116也連接至總線114,以提供至網(wǎng)絡(luò)的連接(未示出)。網(wǎng)絡(luò)可為有線網(wǎng)絡(luò)和無(wú)線網(wǎng)絡(luò)的任何組合。
存儲(chǔ)器120也連接至總線114。存儲(chǔ)器120包括包含音頻源信號(hào)的一個(gè)或多個(gè)音頻源文件122。如下文所述,存儲(chǔ)器120還儲(chǔ)存聲音增強(qiáng)模塊124,其包括被中央處理單元110執(zhí)行的指令,以實(shí)施本發(fā)明的操作。聲音增強(qiáng)模塊124還可處理經(jīng)由網(wǎng)絡(luò)接口電路116接收到的流式音頻信號(hào)。
圖2示出了聲音增強(qiáng)模塊124可接收音頻源文件122(例如,立體聲源文件)。聲音增強(qiáng)模塊124處理音頻源文件,以生成增強(qiáng)的音頻輸出126(例如,具有強(qiáng)中心場(chǎng)和側(cè)分量的增強(qiáng)的立體聲)。
圖3示出了聲音增強(qiáng)模塊124的實(shí)施例。在此情況下,輸入為左(L)和右(R)立體聲道。預(yù)處理階段300分析空間線索,且基于計(jì)算的空間比調(diào)整輸入。如下文所述,下一階段302執(zhí)行遞歸串?dāng)_消除。最后,如下文所述,后處理階段304執(zhí)行中心場(chǎng)處理,均衡和水平控制。
圖4示出了與預(yù)處理階段300相關(guān)聯(lián)的處理操作。在預(yù)處理階段中,分析輸入的聲音,且一組多尺度特征被加回來(lái)使信息處理階段適合在中央聽覺系統(tǒng)中,以便收聽者可清楚地感知和解碼再現(xiàn)的聲音中的信息。在一個(gè)實(shí)施例中,以總和信號(hào)402、差異信號(hào)404和頻譜信息406的形式分析400空間線索。如圖3中所示,總和和差異從左側(cè)輸入和右側(cè)輸入計(jì)算。兩個(gè)聲道的總和表示左聲道和右聲道中的相關(guān)分量或中間信號(hào)。總和信號(hào)306顯示出出現(xiàn)在幻像中心處的信號(hào),通常是電影中的對(duì)話或音樂(lè)中的聲音。兩個(gè)聲道308的差異是硬平移(hard-panned)的聲音,或側(cè)信號(hào)。差異信號(hào)確定僅處在或朝兩個(gè)揚(yáng)聲器中的一個(gè)出現(xiàn)的信號(hào)。差異信號(hào)通常是具有出現(xiàn)在側(cè)部上的分量的特殊音效。分析頻譜以獲得頻譜信息。這樣做是因?yàn)橹行暮陀惨莆宦曇舨豢沙浞值孛枋鲆纛l文件或流。例如,人群聲音是很隨機(jī)的;其可位于中心和側(cè)部處,或僅在側(cè)部處。通過(guò)分析頻譜,人們可判斷由總和/差異步驟標(biāo)記的某信號(hào)是否為主要分量(例如,對(duì)話、特殊音效)或更多的是環(huán)境聲音。在頻域中,環(huán)境聲音作為寬帶聲音出現(xiàn),而音效或?qū)υ捵鳛榘j(luò)譜出現(xiàn)。
下一個(gè)處理操作是從中心和環(huán)境信息408確定空間比。"空間比"(r)被估計(jì)為代表中心圖像與環(huán)境聲音之間的能量分布。立體聲輸入首先發(fā)送至混合器310,在該處,左聲道由以下計(jì)算
其中LT和HT為可接受的空間比的低閾值和高閾值。α和β兩者都是基于r的標(biāo)量調(diào)節(jié)因子。更具體而言,α和β通過(guò)從r的固定線性變換計(jì)算,故所有項(xiàng)彼此相關(guān)。G為正增益因子,其確保結(jié)果聲道的振幅與其輸入相同。對(duì)于右聲道,計(jì)算是相同的。
空間比計(jì)算成代表由三個(gè)分析塊(總和/差異/頻譜信息)標(biāo)記的中心和/或側(cè)分量的量。如通路314上所示,其用于下一個(gè)預(yù)處理步驟(混合塊312),以及后處理階段中的混合。LT和HT為預(yù)設(shè)的感知參數(shù),其可基于獨(dú)立內(nèi)容如音樂(lè)、影片或游戲優(yōu)化,以優(yōu)化其不同的性質(zhì)。閾值基于內(nèi)容的類型調(diào)整。大體上,介于0.1到0.3之間的任何閾值都是合理的。系統(tǒng)基于標(biāo)記的特征猜測(cè)內(nèi)容的類型。例如,電影具有強(qiáng)中心、重環(huán)境,以及動(dòng)態(tài)聲效。相比之下,音樂(lè)幾乎沒有幾個(gè)環(huán)境標(biāo)記以及不同聲源之間的頻譜-時(shí)間內(nèi)容中的重疊。
感知參數(shù)基于感官體驗(yàn),例如聲音?;诠_的感知的技術(shù)依靠人腦,以用作解碼器來(lái)拾取恢復(fù)的定位線索。感知閾值僅考慮由人腦/聽覺系統(tǒng)處理的信息。定位線索從立體聲數(shù)字音頻信號(hào)中恢復(fù),以便人聽覺系統(tǒng)可有效地識(shí)別且解碼音頻信號(hào)。因此,感知上連續(xù)的音景可在不產(chǎn)生虛擬揚(yáng)聲器的情況下重建。公開的技術(shù)在感知空間中重建聲音。即,公開的技術(shù)表達(dá)用于無(wú)意識(shí)的認(rèn)知過(guò)程的信息來(lái)在人聽覺系統(tǒng)中解碼。
圖4的下一個(gè)處理操作是基于空間比410調(diào)整輸入信號(hào),以獲得定位關(guān)鍵信息(即,大腦依靠其來(lái)定位聲音的信息)。環(huán)境聲音被調(diào)整以便其在時(shí)間上是相干的,且與主要對(duì)象(對(duì)話、音效)一致地起作用。環(huán)境聲音對(duì)于認(rèn)知中心理解環(huán)境也很重要。輸入信號(hào)的不同部分然后基于空間比、其標(biāo)記數(shù)目和內(nèi)容類型被調(diào)整。為了具有清楚的中心圖像,一個(gè)實(shí)施例將最小中心設(shè)置為-10.5dB的環(huán)境比。
混合塊312基于計(jì)算的空間比與選擇的感知閾值的比較來(lái)平衡中心圖像和環(huán)境聲音。閾值可通過(guò)指定中心聲音或側(cè)聲音上的重點(diǎn)來(lái)選擇。簡(jiǎn)單的圖形用戶界面可用于允許使用者選擇中心聲音和側(cè)聲音之間的平衡。簡(jiǎn)單圖形用戶界面也可用于允許使用者選擇音量水平。
通過(guò)這樣做,解決了與現(xiàn)有技術(shù)的遞歸串?dāng)_消除相關(guān)聯(lián)的平衡問(wèn)題。這是有效的自動(dòng)平衡過(guò)程。此外,這還確保了環(huán)繞分量可被收聽者清楚地聽到。
基于空間比和來(lái)自分析塊的信息,原始信號(hào)再混合??赡艿奶幚戆ㄉ呋孟裰行牡哪芰?,以便幻像中心錨定在中心處。備選的或另外,側(cè)部處的特殊音效可被強(qiáng)調(diào),以便它們?cè)谶f歸串?dāng)_消除期間被有效地?cái)U(kuò)張。備選的或另外,環(huán)境聲音或背景聲音傳播到聲場(chǎng)各處,而不影響中心圖像。環(huán)境聲音的量也可跨時(shí)間調(diào)整,以保持連續(xù)的沉浸式環(huán)境。
回到圖3,在預(yù)處理300之后,執(zhí)行遞歸串?dāng)_消除302。串?dāng)_在聲音到達(dá)與各個(gè)揚(yáng)聲器的相對(duì)側(cè)上的耳朵時(shí)發(fā)生。由于原始信號(hào)與串?dāng)_信號(hào)之間的建設(shè)性和破壞性干擾,造成不期望的光譜染色。此外,產(chǎn)生了沖突的空間線索,其引起空間失真。結(jié)果,定位失敗,且立體聲圖像崩潰至揚(yáng)聲器的位置。解決該問(wèn)題的方案在于串?dāng)_消除處理,這牽涉將串?dāng)_消除矢量加至相對(duì)的揚(yáng)聲器來(lái)在聽覺上消除收聽者的耳膜處的串?dāng)_信號(hào)。常規(guī)途徑在于使用HRTF用于串?dāng)_消除。在這里使用的簡(jiǎn)化途徑僅將消除信號(hào)加回至相對(duì)的揚(yáng)聲器。具體而言,反相314、衰減316和延遲318階段用于形成高階遞歸串?dāng)_消除器。左聲道和右聲道可由以下計(jì)算:
Left(n)=Left(n)-AL*Right(n-DL)
Right(n)=Right(n)-AR*Left(n-DR)
其中代表衰減的A為正標(biāo)量因子,D為延遲因子,且n為時(shí)域中的給定樣本的索引(index)。在一個(gè)實(shí)施例中,參數(shù)可被優(yōu)化來(lái)匹配硬件的物理配置。例如,對(duì)于具有非對(duì)稱揚(yáng)聲器或不平衡的聲音強(qiáng)度的消費(fèi)者電子裝置,在兩個(gè)聲道之間的因子可以不同。衰減和延遲時(shí)間可配置成適合任何類型的消費(fèi)者電子裝置揚(yáng)聲器配置。
在遞歸串?dāng)_消除302之后,執(zhí)行后處理304。圖5示出了保持中心錨定122、均衡124和水平控制126的形式的后處理操作。對(duì)于保持中心錨定122,輸出又被調(diào)整來(lái)保持對(duì)于收聽者足夠強(qiáng)的中心場(chǎng),因?yàn)槠錇槭怪行膬?nèi)容可理解的重要特征。人習(xí)慣于強(qiáng)中心圖像。例如,如果兩個(gè)揚(yáng)聲器在相同水平下播放相同信號(hào),則幻像中心將由收聽者在中心線上感知為升高3dB。因此,如果兩個(gè)揚(yáng)聲器之間沒有更大的干擾,則將不會(huì)有更多的聲音求和發(fā)生,也不會(huì)有中心的3dB的升高。另一方面,在遞歸串?dāng)_消除之后,立體聲流的深度和房間環(huán)境可能被淹沒,因此必須恢復(fù)。有了此特征,音頻內(nèi)容可能地出現(xiàn)在更遠(yuǎn)的距離。人工混響或甚至從中心的小平移的使用使得中心圖像漂移至側(cè)部。出于這些原因,混合塊320確定是否有需要把中心信號(hào)加回來(lái)。左聲道可由以下計(jì)算,
其中r為之前計(jì)算過(guò)的空間比,且T為感知閾值。閾值的值基于內(nèi)容類型。例如,電影需要用于對(duì)話的強(qiáng)中心圖像,但游戲不需要。在一個(gè)實(shí)施例中,閾值從0.05變至0.95。當(dāng)Mid信號(hào)在播放的音頻(例如,主要對(duì)話)中起到重要作用時(shí),r大于T。注意,r和T的比較也考慮在預(yù)處理狀態(tài)408中計(jì)算得到的原始空間比。a為相對(duì)于r的正標(biāo)量因子。C為另一個(gè)增益因子,以確保輸出處理信號(hào)與原始輸入信號(hào)為相同的響度。相同的過(guò)程也應(yīng)用于右聲道。再次,該過(guò)程使得中心圖像相較于現(xiàn)有技術(shù)更穩(wěn)定,同時(shí)保持了側(cè)分量處的加寬的效果。輸出信號(hào)的場(chǎng)寬度可人工地調(diào)整。前述討論的中心和側(cè)圖形用戶界面可用于建立此體驗(yàn)。例如,100%寬度(對(duì)100%側(cè)聲音偏好)代表整個(gè)效果/寬度,使得聲音可從耳朵后方或正好在耳朵處出現(xiàn)。
繼混合塊320之后,關(guān)于收聽者頭部和電子裝置的大小,均衡322被用于消除通過(guò)使用非理想延遲和衰減因子產(chǎn)生的高頻帶中的可聽見的染色。最后,增益控制塊324確保了每個(gè)信號(hào)在適合的幅度范圍內(nèi),且具有與原始輸入信號(hào)相同的響度。用戶指定的音量偏好也可應(yīng)用于此處。
其它后處理步驟可包括壓縮和峰值限制。它們用于保留揚(yáng)聲器的動(dòng)態(tài)范圍,且保持聲音質(zhì)量,而不產(chǎn)生不期望的染色。
本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,本發(fā)明的技術(shù)提供了用于源文件、流內(nèi)容等等的低成本實(shí)時(shí)計(jì)算過(guò)程。技術(shù)還可嵌入數(shù)字音頻信號(hào)中(即,以便不需要解碼器)。本發(fā)明的技術(shù)可應(yīng)用于條形音箱、立體聲揚(yáng)聲器和汽車音頻系統(tǒng)。
本發(fā)明的實(shí)施例涉及具有非瞬態(tài)計(jì)算機(jī)可讀儲(chǔ)存介質(zhì)的計(jì)算機(jī)存儲(chǔ)產(chǎn)品,介質(zhì)上具有計(jì)算機(jī)代碼,用于執(zhí)行各種計(jì)算機(jī)實(shí)施的操作。媒體和計(jì)算機(jī)代碼可為特別設(shè)計(jì)和構(gòu)造成用于本發(fā)明的目的的那些,或它們可為計(jì)算機(jī)軟件領(lǐng)域的技術(shù)人員公知和可用的類型。計(jì)算機(jī)可讀媒體的示例包括但不限于磁媒體、光媒體、磁光媒體和特別配置成儲(chǔ)存和執(zhí)行程序代碼的硬件裝置,如,專用集成電路("ASIC")、可編程邏輯裝置("PLD")和ROM和RAM裝置。計(jì)算機(jī)代碼的示例包括如由編譯器產(chǎn)生的機(jī)器代碼,以及含有由計(jì)算機(jī)使用轉(zhuǎn)譯器執(zhí)行的高水平代碼的文件。例如,本發(fā)明的實(shí)施例可使用C++或其它編程語(yǔ)言和開發(fā)工具實(shí)施。本發(fā)明的另一個(gè)實(shí)施例可在硬連線電路中實(shí)施,以替代或結(jié)合機(jī)器可執(zhí)行的軟件指令。
以上描述為了闡釋的目的使用了特定術(shù)語(yǔ)來(lái)提供本發(fā)明的徹底理解。然而,本領(lǐng)域的技術(shù)人員將清楚的是,為了實(shí)施本發(fā)明,不需要特定細(xì)節(jié)。因此,提供前文對(duì)本發(fā)明具體實(shí)施例的說(shuō)明是為了例證和說(shuō)明。它們不旨在詳盡或?qū)⒈景l(fā)明限于公開的精確形式;明顯地,鑒于以上教導(dǎo)內(nèi)容,許多改良和變型是可能的。選擇和描述實(shí)施例以便最佳地闡釋本發(fā)明及其實(shí)際應(yīng)用的原理,它們因此允許本領(lǐng)域的其它技術(shù)人員最佳地使用本發(fā)明和各種實(shí)施例,其中各種改良適于構(gòu)想的特定使用。期望的是,以下權(quán)利要求和其等同物限定本發(fā)明的范圍。