專利名稱:用于計算和調(diào)節(jié)音頻信號的感覺響度的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號的響度測量,以及響應(yīng)于這種測量而控制音頻信號響度的設(shè)備、方法、和計算機(jī)程序。
背景技術(shù):
響度是聽覺的主觀感覺屬性,通過它能夠在從無聲擴(kuò)展到大聲的標(biāo)度上排序聲 音。由于響度是聽眾所感覺的感覺,因此它不適合于直接的物理測量,所以難以進(jìn)行量化。 另外,由于響度的感覺分量,具有“正?!甭犃Φ牟煌牨娍赡軐ν环N聲音產(chǎn)生不同的感 覺。減少個體感覺所引入的變化和達(dá)到音頻材料響度的一般測量的唯一方法是集合一群聽 眾并導(dǎo)出響度圖形或進(jìn)行統(tǒng)計排序。這對于逐日標(biāo)準(zhǔn)的響度測量顯然是一種不切實際的方 法。已經(jīng)進(jìn)行了許多嘗試來開發(fā)一種令人滿意的測量響度的客觀的方法。在1933年 Fletcher和Munson確定了人類聽力在低頻和高頻比在中間(或聲音)頻率較不敏感。他 們還發(fā)現(xiàn)在聲音級增加時,靈敏度中的相對變化減小。早先的響度測量儀由麥克風(fēng)、放大 器、測量儀和設(shè)計用于在低、中和高聲音級粗略模仿聽力的頻率響應(yīng)的濾波器組合而組成。即使這些設(shè)備提供了單一的、恒定級獨立音調(diào)的響度測量,但是更復(fù)雜聲音的測 量不是非常地匹配響度的主觀印象。這種類型的聲音級測量儀已經(jīng)標(biāo)準(zhǔn)化,但是其僅僅用 于特定的任務(wù),諸如工業(yè)噪聲的監(jiān)控和控制。早在20世紀(jì)50年代,其中Zwicker和Stevens在開發(fā)響度感覺處理的更為逼真的 模型中擴(kuò)展了 Fletcher和Munson的工作。Stevens在1956年美國聲學(xué)協(xié)會雜志上公布了 一種方法“Calculation of theLoudness of Complex Noise”,以及Zwicker在 1958年的聲 學(xué)文章中公布了他的“Psychological and Methodical Basis of Loudness”。在 1959 年, Zwicker公布了用于響度計算的圖像處理以及不久之后又公布了若干的類似文章。Stevens 和Zwicker方法(分別)標(biāo)準(zhǔn)化為IS0532部分A和B。兩種方法都包含標(biāo)準(zhǔn)的心理聲學(xué)現(xiàn) 象諸如臨界頻帶、頻率屏蔽和單位響度。這些方法基于將復(fù)合聲音劃分成落入頻率的“臨界 頻帶”內(nèi)的分量,以允許有可能一些信號分量屏蔽其他分量,以及在每一臨界頻帶中增加單 位響度以達(dá)到聲音的完全響度。正如澳大利亞廣播管理局(ABA)"Investigation into Loudness ofAdvertisements”(2002年7月)所證明的,近來的研究已經(jīng)顯示出許多廣告(和一些節(jié) 目)被感覺與其他節(jié)目相比太大聲了,所以對于聽眾來說非常令人煩惱。ABA的調(diào)查研究僅 僅是最近的嘗試來解決在實際上所有廣播材料和國家多年存在的問題。這些結(jié)果顯示出能夠減小或消除由于在節(jié)目材料上不相容的響度而引起的聽眾煩惱,如果可靠的話,能夠進(jìn) 行節(jié)目響度的相容測量,并用來減小令人煩惱的響度變化。Bark標(biāo)度是在臨界頻帶原理中使用的測量單位。所述臨界頻帶標(biāo)度是基于這樣 的事實即人類聽力分析廣譜成對應(yīng)于較小臨界子頻帶的部分。以這種方式給下一臨界頻 帶增加一個臨界頻帶即較低臨界頻帶的上限是下一較高臨界頻帶的下限,這導(dǎo)致了臨界頻 帶速率的標(biāo)度。如果通過這種方式將臨界頻帶相加起來,那么特定頻率對應(yīng)于每一交叉 點。第一臨界頻帶跨越的范圍從0到100Hz,第二頻帶的范圍從IOOHz到200Hz,第三頻 帶的范圍從200Hz到300Hz等等直到500Hz,其中每一臨界頻帶的頻率范圍增加。從0到 16kHz的可聽頻率范圍能夠被劃分成24個鄰接的臨界頻帶,其通過增加頻率增加了帶寬。 所述臨界頻帶編號為0到24并具有定義Bark標(biāo)度的單位“Bark”。臨界頻帶速率和頻率 之間的關(guān)系對于理解人耳的許多特性是重要的。例如,參見E. Zwicker和H. Fastl所著的 Psychoacoustics-Facts and Models, 1990 年柏林 Springer-Verlag 公布。等效矩形帶寬(ERB)標(biāo)度是測量人聽力的頻率的方式,它與Bark標(biāo)度相類 似。通過Moore、Glasberg和Baer開發(fā),它是Zwicker響度工作的改進(jìn)。參見Moore、 Glasberg 禾口 Baer(B. C. J. Moore, B. Glasberg, Τ· Baer 的,"A model for the Prediction of Thresholds, Loudness, and Partial Loudness,,,音頻工程協(xié)會雜志,45 卷,NO. 4,1997 年4月,第224-240頁)。由于在這樣低的頻率測量低于500Hz的臨界頻帶是困難的,因此 人聽覺系統(tǒng)的效率和靈敏度迅速地減小。聽覺濾波器帶寬的改進(jìn)測量已經(jīng)產(chǎn)生了 ERB速率 標(biāo)度。這些測量使用V字形噪聲屏蔽器測量聽覺濾波器帶寬。一般而言,對于ERB標(biāo)度,聽 覺濾波器帶寬(以ERB為單位表示)小于Bark標(biāo)度上的帶寬。對于較低頻率則這種差別 變得更大。低于人聽力系統(tǒng)的頻率選擇性能夠通過將聲音強(qiáng)度細(xì)分為落入臨界頻帶內(nèi)的部 分來近似。這種近似產(chǎn)生了臨界頻帶強(qiáng)度的概念。如果代替理想的臨界頻帶濾波器的無限 陡峭斜率,考慮在人聽力系統(tǒng)中產(chǎn)生的實際斜率;然后這種處理產(chǎn)生了稱為激勵的強(qiáng)度中 間值。通常,這些值不用作線性值而是用作類似于聲壓級的對數(shù)值。臨界頻帶和激勵級是在 許多模型中起中間值作用的相應(yīng)值。(參見Psychoacoustics-Facts and Models,Supra)。響度級可以以“方”為單位進(jìn)行測量。一個方定義為在IdB聲壓級(SPL)播放的 IkHz純正弦波的感覺響度,其對應(yīng)于2X 10_5帕的均方根壓強(qiáng)。N方是在N dB SPL播放的 IkHz音調(diào)的感覺響度。在比較除了 IkHz以外頻率的音調(diào)響度和IkHz音調(diào)中使用這種定義, 能夠為給定級的方確定等響度輪廓。圖7示出了用于20Hz和12. 5kHz之間的頻率,以及用 于4. 2方(被認(rèn)為是聽力的門限)和120方之間方級的等響度級輪廓(IS0226:1987(E), "Acoustics-Normal EqualLoudness Level Contours,,)。響度級還可以以單位“宋”進(jìn)行測量。如在圖7中所指示,在方單位和宋單元之間 存在一一映射。1宋定義為40dB (SPL) IkHz純正弦波的響度并且等效于40方。宋的單位是 這樣的宋單位的兩倍增加對應(yīng)于感覺響度的翻倍。例如,4宋被感覺為2宋兩倍的響度。 因此,以宋表示響度級更能提供信息。由于宋是音頻信號響度的度量,單位響度簡單地說是每單位頻率的響度。因此,當(dāng) 使用bark頻率標(biāo)度時,單位響度具有每bark的宋單位,并且同理當(dāng)使用ERB頻率標(biāo)度時, 所述單位是每ERB宋。
在本文的以下部分,這里使用的術(shù)語諸如“濾波器”和“濾波器組”將包括基本上任何形式的遞歸和非遞歸濾波諸如IIR濾波器和變換,以及“濾波的”信息是應(yīng)用這些濾波 器的結(jié)果。以下描述的實施例應(yīng)用通過IIR濾波器和變換實現(xiàn)的濾波器組。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,一種用于處理音頻信號的方法包括響應(yīng)于所述音頻信 號產(chǎn)生激勵信號,以及響應(yīng)于激勵信號和音頻信號特性的測量計算音頻信號的感覺響度, 其中所述計算從一組兩個或更多單位響度模型函數(shù)中選擇一個或兩個或更多單位響度模 型函數(shù)的組合,并通過輸入音頻信號特性的測量控制這種選擇。根據(jù)本發(fā)明的再一個方面,一種用于處理音頻信號的方法包括響應(yīng)于所述音頻 信號產(chǎn)生激勵信號,以及至少響應(yīng)于該激勵信號,計算增益值G[t],如果將該增益值應(yīng)用于 音頻信號,將會產(chǎn)生基本上與參考響度相同的感覺響度,所述計算包括迭代處理循環(huán),該處 理包括至少一非線性處理。根據(jù)本發(fā)明的又一個方面,一種用于處理多個音頻信號的方法包括多個處理,每 一處理接收各自的音頻信號,其中每一處理響應(yīng)于各自的音頻信號產(chǎn)生激勵信號,至少響 應(yīng)于該激勵信號計算增益值G[t],如果將該增益值應(yīng)用于音頻信號,將會產(chǎn)生基本上與參 考響度相同的感覺響度,所述計算包括迭代處理循環(huán),該處理包括至少一非線性處理,以及 利用增益值G[t]控制各自音頻信號的幅度,以便所產(chǎn)生的各自音頻信號的感覺響度基本 上與參考響度相同,并應(yīng)用該相同的參考響度給多個處理的每一處理。在應(yīng)用本發(fā)明這些方面的實施例中,一種用于信號處理的方法或設(shè)備接收輸入音 頻信號。該信號通過模擬外和中耳特性的濾波器或濾波器功能,以及將濾波的信號劃分成 頻帶的濾波器組或濾波器組功能進(jìn)行線性濾波,其中所述頻帶模擬和內(nèi)耳的基膜一起產(chǎn)生 的激勵特性曲線。對于每一頻帶,使用一個或更多單位響度函數(shù)或模型計算單位響度,其選 擇是通過從輸入音頻信號提取的特性或特征來控制的。用于每一頻帶的單位響度組合成表 示寬帶輸入音頻信號的響度測量??梢詾檩斎胄盘柕囊恍┯邢薜臅r間范圍計算響度測量的 單一值,或者在輸入音頻信號的時段或塊上重復(fù)計算該響度測量。在應(yīng)用本發(fā)明這些方面的另一個實施例中,用于信號處理的方法或設(shè)備接收輸入 音頻信號。該信號通過模擬外和中耳特性的濾波器或濾波器功能,以及將濾波的信號劃分 成頻帶的濾波器組或濾波器組功能進(jìn)行線性濾波,其中所述頻帶模擬和內(nèi)耳的基膜一起產(chǎn) 生的激勵特性曲線。對于每一頻帶,使用一個或更多單位響度函數(shù)或模型計算單位響度,其 選擇是通過從輸入音頻信號提取的特性或特征來控制的。用于每一頻帶的單位響度組合成 表示寬帶輸入音頻信號的響度測量。比較該響度測量與參考響度值,并將其差別用于標(biāo)度 和增益調(diào)節(jié)先前輸入到單位響度計算的劃分頻帶的信號。重復(fù)單位響度計算、響度計算和 參考比較,直到響度和參考響度值基本上相同為止。因此,應(yīng)用于劃分頻帶信號的增益表示 當(dāng)增益應(yīng)用于輸入音頻信號時,產(chǎn)生輸入音頻信號的基本上等于參考響度的感覺響度的增 益??梢詾檩斎胄盘柕囊恍┯邢薜臅r間范圍計算響度測量的單一值,或者在輸入音頻信號 的時段或塊上重復(fù)計算該響度測量。優(yōu)選增益的遞歸應(yīng)用,這是因為感覺響度的非線性特 性以及響度測量處理的結(jié)構(gòu)。通過參考以下公開的內(nèi)容和附圖可以更好地理解本發(fā)明的各個方面及其優(yōu)選實施例,其中在若干附圖中相同的附圖標(biāo)記表示相同的單元。示例各個設(shè)備和處理的附圖示 出了有助于理解本發(fā)明的主要單元。為了簡明起見,附圖省略了許多其他特征,這些特征可 能在實際實施中是重要的并且對于本領(lǐng)域的普通技術(shù)人員來說是熟知的,但是這對于理解 本發(fā)明的構(gòu)思不重要。用于實踐本發(fā)明的信號處理可以通過大量的方式來實現(xiàn),其中包括 微處理器執(zhí)行的程序、數(shù)字信號處理器、邏輯陣列和其他形式的計算電路。
圖1是本發(fā)明一個方面的實施例的示意功能方框圖。圖2是本發(fā)明再一個方面的實施例的示意功能方框圖。圖3是本發(fā)明又一個方面的實施例的示意功能方框圖。圖4是在本發(fā)明實施例中適于作為傳輸濾波器的線性濾波器P(Z)理想的特性響 應(yīng),其中垂直軸是單位為分貝(dB)的衰減以及水平軸是單位為赫茲(Hz)的對數(shù)底為10的頻率。圖5示出了 ERB頻率標(biāo)度(垂直軸)和單位為赫茲的頻率(水平軸)之間的關(guān)系。圖6示出了一組近似ERB標(biāo)度上臨界頻帶的理想聽覺濾波器特性響應(yīng)。水平標(biāo)度 是單位為赫茲的頻率以及垂直軸是單位為分貝的級。圖7示出了 IS0226的等響度輪廓。水平標(biāo)度是單位為赫茲的頻率(對數(shù)底為10 的標(biāo)度)以及垂直標(biāo)度是單位為分貝的聲壓級。圖8示出了通過傳輸濾波器P (ζ)規(guī)格化的IS0266的等響度輪廓。水平軸是單位 為赫茲的頻率(對數(shù)底為10的標(biāo)度)和垂直軸是單位為分貝的聲壓級。圖9(實線)示出了用于均勻激勵噪聲和IkHz音調(diào)的響度曲線,其中實線是根據(jù) 本發(fā)明的實施例繪制的,參數(shù)是選擇匹配根據(jù)Zwicker的實驗數(shù)據(jù)的(方塊和圓圈)。垂直 標(biāo)度是單位為宋的響度(對數(shù)底為10)以及水平軸是單位為分貝的聲壓級。圖10是本發(fā)明再一個方面的實施例的示意功能方框圖。圖11是本發(fā)明又一個方面的實施例的示意功能方框圖。圖12是本發(fā)明又一個方面的實施例的示意功能方框圖。圖13是本發(fā)明又一個方面的實施例的示意功能方框圖。
具體實施例方式如以下更詳細(xì)所描述的,圖1示出了本發(fā)明第一方面的實施例,包括分析和推導(dǎo) 輸入音頻信號特性的單位響度控制器或控制器功能(“單位響度控制”)124。該音頻特性 用于控制在單位響度轉(zhuǎn)換器或轉(zhuǎn)換器功能(“單位響度”)120中的參數(shù)。通過使用信號特 性調(diào)節(jié)單位響度參數(shù),本發(fā)明的客觀響度測量技術(shù)可以更近似地匹配通過使用多個聽眾統(tǒng) 計測量響度所產(chǎn)生的主觀響度結(jié)果。使用信號特性控制響度參數(shù)還可以減少不正確測量的 發(fā)生,這種不正確的測量產(chǎn)生被認(rèn)為是使聽眾煩惱的信號響度。如以下更詳細(xì)地描述,圖2中示出了本發(fā)明第二方面的實施例,增加增益設(shè)備或 功能(“迭代增益更新”)233其目的是為了迭代調(diào)節(jié)從輸入音頻信號導(dǎo)出的時間平均的激 勵信號的增益,直到在圖2中223的相關(guān)響度匹配在圖2中230的期望的參考響度。由于感 覺響度的客觀測量包含固有的非線性處理,迭代循環(huán)可以有利地應(yīng)用于確定適當(dāng)?shù)脑鲆?,以匹配輸入音頻信號的響度和期望的響度級。但是,圍繞整個響度測量系統(tǒng)的迭代增益循 環(huán),以至于應(yīng)用增益調(diào)節(jié)到用于每一響度迭代的原始輸入音頻信號,由于產(chǎn)生長期響度的 精確測量所需的時間積分,迭代增益循環(huán)將會昂貴地實現(xiàn)。一般而言,在這種安排中,所述 時間積分需要在迭代中對增益的每一變化進(jìn)行重新計算。但是,正如以下說明的,在圖2以 及還有圖3,和圖10-12的實施例中所示的本發(fā)明的這些方面中,可以在線性處理通道中執(zhí) 行時間積分,該處理在形成迭代增益循環(huán)部分的非線性處理之前和/或之后。線性處理通 道不需要形成迭代循環(huán)的一部分。因此,例如在圖2的實施例中,從輸入201到單位響度轉(zhuǎn) 換器或轉(zhuǎn)換器功能(“單元響度”)220的響度測量通道可以包括在時間平均功能(“時間 平均”)206中的時間積分,并且它是線性的。因此,增益迭代僅僅需要應(yīng)用于一組減少的響 度測量設(shè)備或函數(shù),并且不需要包括任何時間積分。在圖2的實施例中,傳輸濾波器或傳輸 濾波器功能(“傳輸濾波器”)202,濾波器組或濾波器組功能(“濾波器組”)204,時間平均 器或時間平均功能(“時間平均”)206以及單位響度控制器或單位響度控制功能(“單位 響度控制”)224不是迭代循環(huán)的一部分,這允許在有效和精確的實時系統(tǒng)中實現(xiàn)迭代增益 控制。再次參考圖1,其中示出了根據(jù)本發(fā)明第一方面的響度測量儀或響度測量處理 100實施例的功能方框圖。要確定響度測量的音頻信號施加于響度測量儀或響度測量處理 100的輸入端101。該輸入施加于兩條通道-第一(主)通道,計算多個頻帶的每一頻帶中 的單位響度,該頻帶模擬和內(nèi)耳的基膜一起產(chǎn)生的激勵特性曲線,以及具有單位響度控制 器的第二(側(cè))通道,用于選擇在主通道中應(yīng)用的單位響度函數(shù)或模型。在優(yōu)選的實施例中,在數(shù)字域中執(zhí)行音頻處理。相應(yīng)地,通過離散時間序列x[n] 表示音頻輸入信號,該序列已經(jīng)以某采樣頻率fs從音頻源進(jìn)行采樣。假定已適當(dāng)?shù)貥?biāo)度序 列X [η],以便χ[η]以分貝表示的rms功率<formula>formula see original document page 7</formula>10039] 等于以dB表示的聲壓級,在此分貝聽眾可聽得見所述音頻。另外,為了簡化說明 假定該音頻信號是單聲道的。但是,本實施例可以通過以下描述的方式適于多聲道音頻。傳輸濾波器102在主通道中,音頻輸入信號施加于傳輸濾波器或傳輸濾波器功能(“傳輸濾波 器”)102,其輸出是音頻信號的濾波形式。傳輸濾波器102通過應(yīng)用線性濾波器P (ζ)模擬 通過外耳和耳朵中間部分傳輸音頻的效果。如圖4中所示,P(Z)的一個適當(dāng)?shù)姆阮l率響 應(yīng)在低于IkHz時為1,以及高于IkHz時該響應(yīng)跟隨如在IS0226標(biāo)準(zhǔn)中規(guī)定的聽力門限的 倒數(shù),該門限被規(guī)格化成在IkHz處等于1。通過應(yīng)用傳輸濾波器,響度測量處理所處理的音 頻更接近地近似人聽力所感覺的音頻,借此改進(jìn)了客觀響度測量。因此,傳輸濾波器102的 輸出是時域輸入音頻信號x[n]的依賴于頻率標(biāo)度的形式。濾波器組104濾波的音頻信號施加于濾波器組或濾波器組功能(“濾波器組”)104 (圖1)。濾 波器組104被設(shè)計用于模擬和內(nèi)耳的基膜一起產(chǎn)生的激勵特性曲線。濾波器組104可以 包括一組線性濾波器,其帶寬和間隔在等效矩形帶寬(ERB)頻率標(biāo)度上連續(xù),如Moore、 Glasberg 和 Baer (B. C. J. Moore,B. Glasberg,Τ· Baer 的 “A model for the PredictionofThresholds, Loudness, and Partial Loudness,,,如前述)所定義的。盡管ERB頻率標(biāo)度更接近匹配人的感覺并顯示出在產(chǎn)生匹配于主觀響度結(jié)果的 客觀響度測量方面的改進(jìn)性能,但是也可以應(yīng)用降低性能的Bark頻率標(biāo)度。對于單位為赫茲的中心頻率f,單位是赫茲的一個ERB頻帶的寬度可以近似為<formula>formula see original document page 8</formula>從這種關(guān)系,定義變形的頻率標(biāo)度,以便在任何點和變形的標(biāo)度一起,變形標(biāo)度單 位中的相應(yīng)ERB等于1。用于從單位為赫茲的線性頻率轉(zhuǎn)換到該ERB頻率標(biāo)度的函數(shù)通過 對方程1的倒數(shù)積分而獲得HzToERBif) = f247(437j./1000+1)^/ =21.4loglo(4.37//1000+l) (2a)通過解方程2a求解f表示從ERB標(biāo)度轉(zhuǎn)換回線性頻率標(biāo)度是有用的<formula>formula see original document page 8</formula>這里e是以ERB標(biāo)度的單位。圖5示出了 ERB標(biāo)度和單位為赫茲的頻率之間的關(guān)系。用于濾波器組104的聽覺濾波器的響應(yīng)可以使用標(biāo)準(zhǔn)的IIR濾波器表征和實現(xiàn)。 更具體而言,在單位為赫茲的中心頻率f。處并在濾波器組104中實現(xiàn)的各個聽覺濾波器可 通過第十二階IIR傳遞函數(shù)定義雙身(3)其中fA =^lfe3+B^(4a)rA =C-23^jf'(4b)Bw = min {1. 55ERB (fc),0. 5fc(4c)fB = min {ERBscale-1 (ERBscale (fc) +5. 25),fs/2} (4d)rB = 0. 985(4e)fs是單位為赫茲的采樣頻率,以及G是保證每個濾波器在其頻率響應(yīng)峰值處具有 單位增益的規(guī)格化系數(shù);進(jìn)行選擇以便 maxjii^ (eJa> )|}= 1(4f)濾波器組104可以包括M個這種聽覺濾波器,稱為頻帶,沿ERB標(biāo)度在中心頻率 fc[l].. · f。[M]均勻間隔。更具體而言,fc[l] = fmin(5a)fc [m] = fc [m-1]+ERBToHz (HzToERB (fc [m_l]) + Δ ) m = 2. . . M (5b)fc[M] < ffflax(5c)這里Δ是期望的濾波器組104的ERB間隔,其中fmin和fmax分別是期望的最小和 最大中心頻率??梢赃x擇Δ = 1,并考慮人耳敏感的頻率范圍,可以設(shè)置fmin = 50Hz和= fmax20000Hzo利用這些參數(shù),例如,應(yīng)用方程6a-c產(chǎn)生M = 40個聽覺濾波器。圖6示出了 在ERB標(biāo)度上近似臨界頻帶的這M個聽覺濾波器的幅度。
可替換地,使用有限長度離散傅里葉變換,通常稱之為短時離散傅里葉變換 (STDFT),可以充分地近似所述濾波操作,這是因為實現(xiàn)以音頻信號的采樣速率運行濾波 器,稱之為全速率實現(xiàn),這被認(rèn)為比精確的響度測量提供更高的時間分辨率。通過使用 STDFT代替全速率實現(xiàn),可以實現(xiàn)提高效率和減小計算的復(fù)雜度。輸入音頻信號χ [η]的STDFT定義為
ΛΓ-Ι<formula>formula see original document page 9</formula>這里k是頻率索引,t是時間塊索引,N是DFT大小,T是跳躍大小,以及w [η]是長 度N的窗,其被規(guī)格化使得
<formula>formula see original document page 9</formula>值得注意的是方程6中的變量t是表示STDFT的時間塊的離散索引,相對于以秒 為單位的時間測量。t中的每一增加表示沿信號χ [η]的T個采樣的跳躍。接下來參考索引 t假設(shè)這種定義。盡管可以取決于實現(xiàn)的細(xì)節(jié)而使用不同的參數(shù)設(shè)置和窗形狀,對于fs = 44100Hz,選擇N = 4096,T = 2048,并讓w[n]為產(chǎn)生最佳結(jié)果的漢明窗。使用快速傅里葉 變換(FFT)上述的STDFT可以更加有效。為了計算輸入音頻信號的響度,需要測量濾波器組104中每一濾波器的音頻信號 能量。通過將頻域中的濾波器響應(yīng)與輸入信號的功率譜相乘,可以近似濾波器組104中每 一濾波器的瞬時能量輸出
<formula>formula see original document page 9</formula>
這里m是頻帶數(shù)量,t是方塊號,以及ρ是傳輸濾波器。應(yīng)該注意到除了方程3中規(guī) 定以外的聽覺濾波器的幅度響應(yīng)形式可以在方程8中使用以獲得類似的結(jié)果。例如,Moore 和Glasberg建議了一種通過指數(shù)函數(shù)描述的濾波器形狀,該函數(shù)的操作類似于方程3。另 夕卜,通過稍微地降低性能,可以將每一濾波器近似為通過一個ERB帶寬的“磚墻”頻帶,以及 作為另一種近似,傳輸濾波器P可以從求和中拉出。在這種情況下,方程8簡化成Elm,t] = Lyie^Vf. }|2 ^xlkJf(9a)
iaJbgIi1 = round (ERBToHz (HzToERB (fc [m])-1/2) N/fs)(9b)k2 = round (ERBToHz (HzToERB (fc [m]) +1/2) N/fs)(9c)因此,濾波器組104的激勵輸出是在每時間周期t的各個ERB頻帶m中的能量E 的頻域表示。多聲道對于當(dāng)輸入音頻信號是要在多個揚聲器上可聽得見的多聲道格式的情況下,對于 每一聲道一個揚聲器,可以首先如上所述計算用于每一單獨聲道的激勵。為了接下來計算 組合的所有聲道的感覺響度,可以將單獨的激勵一起相加成單一激勵,以近似到達(dá)聽眾耳 朵的激勵。然后,對該單一的、求和的激勵執(zhí)行所有接下來的處理。時間平均106
心理聲學(xué)的研究和主觀響度測試表明當(dāng)比較各種音頻信號之間的響度時,聽眾執(zhí) 行某種類型的短期或“瞬時”信號響度的時間積分,以達(dá)到用于比較中使用的長期感覺響度 的值。當(dāng)構(gòu)造一種響度感覺的模型時,已經(jīng)表明在將激勵非線性變換成單位響度之后執(zhí)行 這種時間積分。但是,本發(fā)明人已經(jīng)確定在變換激勵成單位響度之前,對該激勵使用線性平 滑可以充分地模型化這種時間積分。根據(jù)本發(fā)明的一個方面,通過在計算單位響度之前執(zhí) 行這種平滑,當(dāng)計算所需應(yīng)用于信號的增益時,實現(xiàn)顯著的優(yōu)點,以便以預(yù)定的方式調(diào)節(jié)其 測量的響度。如以下進(jìn)一步說明的,可以通過使用迭代循環(huán)計算增益,該循環(huán)不僅排除激勵 計算還優(yōu)選排除這種時間積分。通過這種方式,迭代循環(huán)通過計算可以產(chǎn)生增益,該計算僅 僅取決于為其計算增益的當(dāng)前時間幀,正如該計算對立于取決于時間積分的整個時段的計 算。該結(jié)果節(jié)約了處理時間和存儲器。使用迭代循環(huán)計算增益的實施例包括以下結(jié)合圖2、 3和10-12描述的內(nèi)容。返回到圖1的描述,可以各種方式來實現(xiàn)激勵的線性平滑。例如,可以使用應(yīng)用以 下方程的時間平均設(shè)備或功能(“時間平均”)106遞歸地執(zhí)行平滑<formula>formula see original document page 10</formula>
這里初始條件是云[m,-l] = 0和<5tm,-1]=0。平滑濾波器的唯一特征是通過改變平
滑參數(shù)λω,平滑的能量^rnJ可以從E[m,t]的真實時間平均變化成E[m,t]的衰落記憶平 均。如果λω= 1,那么根據(jù)(IOb)可以看出<m,r] = i,那么對于從0到t的時間塊,云[ ^等 于E[m,t]的真實時間平均。如果0彡Xm< 1,那么當(dāng)t—⑴時,ff[m,/] — l/ ( 1 ~ Xm), 以及f[m,i]簡化為應(yīng)用一個極點平滑器到E[m,t]的結(jié)果。對于期望描述有限長度音頻分 段的長期響度的單數(shù)字應(yīng)用來說,對于所有m可以設(shè)置λω= 1。對于愿意實時跟蹤連續(xù)音 頻流的時間變化長期響度的實時應(yīng)用,對于所有m,可以設(shè)置λω<1并且設(shè)置入1]1成 相同的值。在計算E[m,t]的時間平均中,可以期望省略被認(rèn)為“太靜”的瞬時分段并且不會 促進(jìn)感覺響度。為了實現(xiàn)這,可以在方程10中與平滑器并行地運行第二門限平滑器。如果 E[m, t]小于云[m,r],則該第二平滑器保持它的當(dāng)前值
<formula>formula see original document page 10</formula>其他這里tdB是以分貝為單位規(guī)定的相對門限。盡管對于本發(fā)明不是關(guān)鍵,但是 已經(jīng)發(fā)現(xiàn)tdB的值=-24產(chǎn)生好的結(jié)果。如果不存在并行運行的第二平滑器,那么
單位響度120它對于頻帶時間平均的激勵保留能量瓦[m,i]被轉(zhuǎn)換成感覺單位,在這種情況下單位為宋的單一響度測量。在單位響度轉(zhuǎn)換器或轉(zhuǎn)換功能(“單位響度”)120中,激勵的每 一頻帶被轉(zhuǎn)換成單位響度的值,其中每ERB以宋測量該值。在響度組合器或響度組合功能 (“響度”)122中,可以積分單位響度的值或者在頻帶上進(jìn)行求和以產(chǎn)生總的感覺響度。單位響度控制124/單位響度120多模型在一個方面,本發(fā)明在方塊120中使用多個模型用于轉(zhuǎn)換激勵成頻帶單位響度。 經(jīng)由單位響度控制124在側(cè)通道中從輸入音頻信號導(dǎo)出的控制信息選擇模型或控制模型 促進(jìn)單位響度的程度。在方塊124中,從所述音頻中提取有利于從可用的模型中選擇一個 或更多單位響度模型的特定特征或特性。根據(jù)該提取的特征或特性產(chǎn)生指示應(yīng)該使用哪一 模型或模型組合的控制信號。在可能期望使用不止一個模型的情況下,所述控制信息還可 以指示應(yīng)該如何組合這些模型。例如,每頻帶單位響度N’ [m, t]可以表示為用于每一模型的每頻帶單位響度 N’ q[m, t]的線性組合(12)這里Q指示模型的總數(shù)量以及控制信息α q[m,t]表示每一模型的加權(quán)或貢獻(xiàn)。加 權(quán)的求和可以或不可以等于1,這取決于要使用的模型。盡管本發(fā)明并不限制于此,但是已經(jīng)發(fā)現(xiàn)兩個模型給出了精確的結(jié)果。當(dāng)所述音 頻信號表征為窄帶時,一個模型執(zhí)行最佳,以及當(dāng)該音頻信號表征為寬帶時,另一個模型執(zhí) 行最佳。初始,在計算單位響度中,可以將互hd的每一頻帶中的激勵級轉(zhuǎn)換成在 IS0266(圖7)的等響度輪廓所規(guī)定的IkHz處相同的激勵級,通過傳輸濾波器P(Z)(圖8) 規(guī)格化該等響度輪廓EitfitIm,t] = L,m(E\mAJc[rn\)(13)這里L(fēng)lksz(E,f)是產(chǎn)生在IkHz處級的函數(shù),其等于頻率f處的級Ε。實際上,Llksz(E, f)被實現(xiàn)為通過傳輸濾波器規(guī)格化的等響度輪廓查詢表的內(nèi)插。變換到IkHz處的相同級 簡化了以下單位響度計算。接下來,每一頻帶中的單位響度可以如下計算N' [m, t] = α [m, t]NNB' [m, t] + (l-a [m, t])Nm' [m, t] (14)其中N’ ■[m,t]和N’ TO[m, t]分別是基于窄帶和寬帶信號模型的單位響度值。該 值a [m, t]是根據(jù)音頻信號計算的位于0和1之間的內(nèi)插系數(shù),以下將描述細(xì)節(jié)。使用以下指數(shù)函數(shù)從頻帶激勵可以估計窄帶和寬帶單位響度值N’ NB[m,t]和 N,m[m, t]<formula>formula see original document page 12</formula>這里TQlkllz是在用于IkHz音調(diào)的無聲門限的激勵級。根據(jù)等響度輪廓(圖7和 8),TQlkHz等于4. 2dB。注意到當(dāng)該激勵等于無聲的門限時,這些單位響度函數(shù)都等于零。對 于大于無聲門限的激勵,這些函數(shù)根據(jù)Stevens的強(qiáng)度敏感定律以冪律單調(diào)增加。選擇窄 帶函數(shù)的指數(shù)大于寬帶函數(shù)的指數(shù),使得窄帶函數(shù)比寬帶函數(shù)更迅速地增加。以下將討論 對用于窄帶和寬帶情況的指數(shù)β和增益G的具體選擇。響度 122響度122使用單位響度120的頻帶單位響度以產(chǎn)生音頻信號的單一響度測量,即 在端123的輸出感覺單位的響度值。該響度測量可以具有任意的單位,只要用于不同音頻 信號的響度值的比較指示哪一更大聲和哪一更溫柔??梢詫⒁运螢閱挝槐硎镜目傢懚扔嬎銥橛糜谒蓄l帶的單位響度的之和;<formula>formula see original document page 12</formula>
這里Δ是方程6b中規(guī)定的ERB間隔。選擇方程15a中的參數(shù)Gnb和β NB, 以便當(dāng)α [m, t] = 1時,以宋為單位的S的曲線與用于IkHz音調(diào)的SPL的關(guān)系曲線 基本上匹配Zwicker所提供的相應(yīng)實驗數(shù)據(jù)(圖9中的圓圈)(Zwicker,H. Fasti, "Psychoacoustics-Facts andModels,,,如前述)。選擇方程 15b 中的參數(shù) Gwb 和 β TO,以便 當(dāng)α [m,t] = 0時,以宋為單位的N的曲線與用于均勻激勵噪聲(在每一 ERB具有相等功 率的噪聲)的SPL的關(guān)系曲線基本上匹配來自Zwicker的相應(yīng)結(jié)果(圖9中的方塊)。適 于Zwicker數(shù)據(jù)的最小二乘法產(chǎn)生<formula>formula see original document page 12</formula>圖9(實線)示出了用于均勻激勵噪聲和IkHz音調(diào)的響度曲線。單位響度控制124如上所述,在實際的實施(方程15a和15b)中使用單位響度的兩種模型,一種模 型用于窄帶信號以及另一種模型用于寬帶信號。在側(cè)通道中的單位響度控制124計算度量 α [m, t],它指示在每一頻帶中輸入信號是窄帶或?qū)拵У某潭?。一般而言,?dāng)信號是接近于 頻帶中心頻率f。[m]的窄帶時,α [m, t]應(yīng)該等于1,以及當(dāng)該信號是接近于頻帶中心頻率 f。[m]的寬帶時,α [m,t]應(yīng)該等于0。所述控制應(yīng)該在改變這些特征混合的兩個極限之間 連續(xù)地變化。作為一種簡化,控制α [m,t]可以選擇為頻帶上的常數(shù),在這種情況下α [m,t]基本上被稱為α [t],而省略了頻帶索引m。然后,控制α [t]表示信號在整個頻帶上如 何窄帶的測量。盡管以下將描述用于產(chǎn)生這種控制的適合方法,但是特定的方法并不關(guān)鍵, 而是可以應(yīng)用其他適合的方法。控制α [t]可以在濾波器組104的輸出端根據(jù)激勵E[m,t]計算,而不通過信號 X[η]的一些其他處理。E[m,t]可以提供足夠的參考,根據(jù)該參考測量x[n]的“窄帶”和 “寬帶”,結(jié)果,利用幾乎很少增加的計算就可以產(chǎn)生α [t]。
“頻譜平坦度”是根據(jù)其可以計算α [t]的E[m,t]的特征。頻譜平坦度是幾何平 均與算術(shù)平均的比值,如 Jayant 和 Noll 所定義(N. S. Jayant,P. Noll,Digital Coding Of Waveforms,Prentice Hall,新澤西州,1984年),其中在頻率(在E[m,t]情況中的索引m) 上采用該平均。當(dāng)E[m,t]在m上為常數(shù)時,幾何平均等于算術(shù)平均,并且頻譜平坦度等于 1。這對應(yīng)于寬帶信號的情形。如果E[m,t]在m上顯著地變化,那么幾何平均顯著小于算 術(shù)平均,以及頻譜平坦度近似零。這對應(yīng)于窄帶信號的情形。通過計算1減去頻譜平坦度, 可以產(chǎn)生“窄帶”的測量,其中零對應(yīng)于寬帶以及1對應(yīng)于窄帶。具體而言,可以計算1減 去E[m,t]的修改的頻譜平坦度<formula>formula see original document page 13</formula>其中P[m]等于在頻率ω = 2 π f。[m]/fs所采樣的傳輸濾波器P (ζ)的頻率響應(yīng)。 通過傳輸濾波器規(guī)格化E [m,t]可以提供更好的結(jié)果,因為應(yīng)用該傳輸濾波器在E[m,t]中 引入了 “凸起(bump)”,它有助于“窄帶”測量。另外,在E[m,t]的頻帶子集上計算頻譜平 坦度可以產(chǎn)生更好的結(jié)果。方程18中求和的下限和上限,M1M和Mu[t],定義可以小于所 有M個頻帶的范圍的區(qū)域。期望MJt]和Mu[t]包括E[m,t]的部分,該部分包含它的大部 分能量,以及MJt]和Mu[t]所定義的范圍僅僅是在ERB標(biāo)度上的24單位寬。更具體而言 (并且回想f。[m]是單位赫茲的頻帶m的中心頻率),期望<formula>formula see original document page 13</formula>其中CT [t]是在ERB標(biāo)度上測量的E [m,t]的頻譜重心<formula>formula see original document page 13</formula>理想情況下,當(dāng)在ERB標(biāo)度上測量時,M1M和Mu[t]求和的極限定位于CT[t]周 圍的中心,但是當(dāng)CT[t]接近它范圍的下限或上限時,并不總是有可能出現(xiàn)這種情況。接下來,NB[t]可以以一種類似于方程Ila的方式在時間上進(jìn)行平滑<formula>formula see original document page 14</formula>這里斤[f]在整個m上等于方程lib中定義的廳的最大值。最后,根據(jù)涵⑷計 算α [t]如下<formula>formula see original document page 14</formula>(21a)其中Φ {χ} = 12. 2568χ3-22· 8320χ2+14· 5869χ-2· 9594(21b)盡管Φ {χ}的精確形式并不關(guān)鍵,但是可以通過相對大量音頻資料的主觀測量的 響度優(yōu)化α [t]得到方程21b中的多項式。圖2示出了根據(jù)本發(fā)明第二方面的響度測量儀或響度測量處理200實施例的功能 方框圖。圖2的設(shè)備或函數(shù)202、204、206、220、222、223和224對應(yīng)于圖1的各個設(shè)備或函 數(shù) 102、104、106、120、122、123 和 124。根據(jù)本發(fā)明的第一方面,圖1示出了實施例,響度測量儀或計算產(chǎn)生感覺單位的 響度值。為了調(diào)節(jié)輸入信號的響度,有用的測量是增益G[t],當(dāng)將其與輸入信號x[n]相乘 時(例如,在以下描述的圖3的實施例中),使其響度等于參考響度級Sref。可以任意規(guī)定 或通過根據(jù)本發(fā)明第一方面操作的另一設(shè)備或處理根據(jù)一些“已知的”參考音頻信號測量 參考響度Sref。讓Ψ {χ [η],t表示對信號χ [η]執(zhí)行的所有計算以產(chǎn)生響度S[t],想要得到 G[t]以便Sref = S [t] = Ψ {G [t] χ [η],t(23)由于在Ψ{.中實施的處理部分是非線性的,不存在用于G[t]的閉合形式解,因此 可以使用其代替迭代技術(shù)找到近似解。在處理中的每一迭代1,讓&表示G[t]的當(dāng)前估計。 對于每一迭代,更新Gi,以便與參考響度的絕對誤差減小I Sref-Ψ (GiX [η],t} | < | Sref-Ψ (Gi^1X [η],t} |(24)存在許多用于更新Gi的適當(dāng)技術(shù),以便獲得誤差中的上述減小。一種這樣的方法 是梯度下降(參見Dimitri P. Bertseakas 的NonlinearProgramming,Athena Scientific, 貝爾蒙特,1995年MA),其中通過與在前一迭代的誤差成比例的量更新Gi Gi = Gi^1+ μ (Sref-W (Gi^1X [η], t}),(25)這里μ是迭代的步進(jìn)大小。上述迭代繼續(xù)直到上述絕對誤差低于某門限,迭代的 次數(shù)到達(dá)某預(yù)定的最大限制,或者已經(jīng)過了規(guī)定的時間。在該點上設(shè)置G[t]等于Α。再次參考方程6-8,注意到通過對信號STDFT幅度的平方進(jìn)行線性操作獲得信號 X[η]的激勵,即|X[k,t]2。接著,由增益修改的信號Gx[η]產(chǎn)生的激勵等于χ[η]的激勵乘 以G2。而且,所需用于估計長期感覺響度的時間積分可以通過激勵的線性平均而執(zhí)行,所 以,對應(yīng)于Gx[n]的時間平均激勵對等于x[n]的時間平均激勵乘以G2。結(jié)果,在上述的迭 代處理中,不需要在整個輸入信號歷史上對于Ψ {GiX [n],t}的每一重新估計重新計算所述 時間平均。相反,在該迭代中,根據(jù)x[n]可以僅僅計算一次玄的時間平均激勵,通過直接應(yīng)用更新增益的平方給瓦可以計算響度的更新值。具體而言,讓ΨΕ{互[m,r]表示對 時間平均激勵執(zhí)行的產(chǎn)生S[t]的所有處理,對于通常的相乘增益G保持以下關(guān)系;(26)使用這種關(guān)系,通過利用Te^G/玄[w,/]}代替W{GiX[n],t}可以簡化迭代處理。如 果在非線性變換到單位響度之后,已經(jīng)執(zhí)行了所需用于估計長期感覺響度的時間積分,則 這種簡化將會不可能。圖2中描述了計算G[t]的迭代處理。在減法組合器或組合函數(shù)231中可以從端 230的參考響度Sref減去在端223的輸出響度S [t]。所產(chǎn)生的誤差信號232饋送到在迭代 中產(chǎn)生下一增益Gi的迭代增益更新器或更新功能(“迭代增益更新”)233。該增益的平方, Gi2,然后在輸出234反饋到相乘組合器208,在那里將Gi2乘以來自方塊206的時間平均激勵 信號。在迭代中,然后根據(jù)時間平均激勵的該增益修改形式通過方塊220和222計算S[t] 的下一值。上述循環(huán)迭代直到滿足終止條件,即端235的增益G[t]被設(shè)置為等于Gi的當(dāng) 前值。例如對于每一 FFT幀t,或者在該分段的整個長度上平均所述激勵之后,僅僅一次在 音頻分段的結(jié)尾,通過上述迭代處理可以計算最終值G[t]。如果希望結(jié)合該迭代處理計算非增益修改信號響度,能夠在用于每一時間周期t 的每一迭代處理的開始初始化增益Gi* 1。該方法中,在循環(huán)中計算的S[t]的第一值表示 原始信號響度并且能夠?qū)⑵淙绱擞涗?。但是,如果不希望記錄該值,可以利用任何值初始?Gi0在相繼時間幀上計算G[t]以及不希望記錄原始信號響度的情況下,可能希望從前一時 間周期初始化Gi等于G[t]的值。該方法中,如果從前一時間周期信號沒有顯著地變化,有 可能G[t]值將仍然保持基本上相同。所以,將只需要少許迭代以收斂于正確的值。一旦完成迭代,G[t]表示在201通過一些外部設(shè)備應(yīng)用于輸入音頻信號的增益, 以便修改信號的響度匹配所述參考響度。圖3示出了一種適合的安排,其中來自迭代增益 更新233的增益G[t]應(yīng)用于信號電平控制設(shè)備或函數(shù)諸如壓控放大器(VCA) 236的控制輸 入,以便提供經(jīng)過增益調(diào)節(jié)的輸出信號。圖3中的VCA 234可以通過控制增益調(diào)節(jié)器的操 作員響應(yīng)于線路235上的增益G[t]的傳感指示進(jìn)行替換。傳感指示可以例如由測量儀提 供。增益G[t]可以經(jīng)過時間平滑(未示出)。對于某些信號,可以希望方程10和11中所描述平滑的替換用于計算長期感覺響 度。聽眾傾向于將信號的長期響度于該信號的最高聲部分關(guān)聯(lián)起來。結(jié)果,方程10和11 中表示的平滑可能低估信號的感覺響度,該信號包含由較高聲資料的較短分段所中斷的長 周期的相對靜默。通常在具有周圍場景嘈雜的較長周期所圍繞對話的短分段的電影聲軌中 找到這種信號。即使利用方程11表示的門限,這些信號的安靜部分也可能極大地有助于時 間平均激勵瓦[m,i]。為了處理這種問題,在本發(fā)明的另一個方面可以應(yīng)用計算長期響度的統(tǒng)計技術(shù)。首先,方程10和11中的平滑時間常數(shù)非常小,并設(shè)置tdB成負(fù)無窮大,從而表示所 述“瞬時”激勵。在這種情況下,可以選擇平滑參數(shù)λ m在頻帶m上變化成更精確的模型, 其方式是瞬時響度的感覺在頻率上變化。但是,在實際中,選擇上的常數(shù)仍然產(chǎn)生 可接受的結(jié)果。如在方程16中所規(guī)定的,前面描述算法的剩余部分操作不變,這將產(chǎn)生瞬 時響度信號S[t]。在某范圍I1StSt2上,然后對于該范圍中時間值的ρ百分比,定義長期響度sp[t1;t2]為大于S[t]的值,以及對于該范圍中時間值的IOO-P百分比,定義長期響 度&[、,、]為小于S[t]的值。實驗已經(jīng)表明設(shè)置P等于大致90%匹配主觀感覺的長期響 度。利用這種設(shè)置,只有10%的S[t]的值需要顯著地影響長期響度。該值的其他90%相 對安靜而不會降低長期響度測量。通過升序排序值S[t],t^t^ t2,成列表Ss。rt{i},0 ( i ( Vt1能夠計算值 SpLt1, t2],這里i表示排序列表的第i個單元。然后通過P百分比的單元到列表中給出長 期響度
Sp Lt1, t2] = Ssart {round (ρ (Vt1)/100)}(27)上述計算相對簡單。但是,如果希望計算增益Gp[t1; t2],其中當(dāng)其乘以x[n]時 產(chǎn)生了等于某參考響度SMf的&[、,t2]時,該計算變得更加復(fù)雜。正如前所述,需要迭代 方法,但是現(xiàn)在長期響度測量民[、,、]取決于值S[t]的整個范圍,^StSt2,在所述迭 代中必須利用Gi的每一更新來更新其中的每個值。為了計算這些更新,必須在整個范圍 t! ^ t ^ t2上存儲信號互h,i]。另外,由于S[t]對Gi的依賴是非線性的,因此S[t]的相對 順序,t^t^ t2,可以利用每一迭代改變,并且所以,還必須重新計算Ss。rt{i}。當(dāng)對于迭 代中的特定增益考慮短時間信號分段時,顯然需要重新排序,其中該分段的頻譜正好低于 聽力的門限。當(dāng)增加所述增益時,分段頻譜的重要部分可以變得可聽得見,這可能使得分段 的總響度大于先前可聽信號的其他窄帶分段。當(dāng)范圍I1StSt2變大或者如果希望連續(xù) 計算增SGp[t1;t2]為滑動時間窗的函數(shù)時,這種迭代處理的計算和存儲器成本可能變?yōu)榻?止。通過實現(xiàn)S[t]是&的單調(diào)增加函數(shù)從而達(dá)到了計算和存儲器的顯著節(jié)約。換言 之,在每一時間瞬間增加Gi總是增加短期響度。利用這種知識,想要的匹配增益Gp[t1; t2] 能夠如下有效地計算。首先,使用所述的迭代根據(jù)瓦[m,ij,對于范圍I1StSt2中的所有 值t計算前一定義的匹配增益G[t]。注意到對于每一值t,通過在單值玄hj上迭代來計 算G[t]。接下來,通過升序排序值G[t],、彡t彡t2,到列表Gs t U},0彡i彡t2-ti;計算 長期匹配增益Gp[t1; t2],然后設(shè)置Gp[t1 t2] = Gsort {round ((100-P) (Vt1)/100)}.(28)現(xiàn)在論證、[、,t2]等于增益,當(dāng)其乘以x[n]時產(chǎn)生等于期望的參考響度Sref的 Sp[ti;t2]。從方程28注意到,對于范圍、彡t彡t2中的時間值100-p百分比,G[t] < Gp Lt1, t2],對于其他ρ百分比則G [t] >Gp[t1;t2]。對于G[t]的這些值諸如G [t] <Gp[t1;t2],注 意到如果將Gp[t1; t2]應(yīng)用于而不是G[t]的相應(yīng)值,那么所產(chǎn)生的S[t]值將會大于 期望的參考響度。由于S[t]是增益的單調(diào)增加函數(shù),因此這是事實。同理,如果將Gp[t1; t2]應(yīng)用于對應(yīng)于G[t]的亙[m』值諸如G[t] >Gp[ti; t2],所產(chǎn)生的S[t]值將會小于期望 的參考響度。所以,應(yīng)用Gp[t1;t2]到范圍I1StSt2中的所有值亙[m,小產(chǎn)生的S [t]大于 期望的時間的參考100-p百分比并小于時間的參考ρ百分比。換言之,Sp[t1;t2]等于期望 的參考。這種替換的計算匹配增益的方法消除了在范圍I1StSt2上存儲玄[m/j和S[t] 的需要。只需要存儲G[t]。另外,對于計算的每一值Gp[t1; t2],只需要執(zhí)行一次在范圍 t! ^ t ^ t2上排序G[t],這與前一方法相反,其中每一迭代都需要重新排序S[t]。在某長度τ滑動窗(S卩,ti = t-τ,t2 = t)上連續(xù)計算Gp[t1; t2]的情況下,對于每一新的時間 瞬間,通過簡單地從排序列表中刪除和增加單個值能夠有效地保持列表Gs。rt{i}。當(dāng)范圍 t^t^ t2變得非常大時(例如,整個歌曲或電影的長度),仍可能禁止所需用于存儲G[t] 的存儲器。在這種情況下,根據(jù)G[t]的離散直方圖可以近似、[、,、]。實際上,根據(jù)G[t] 以分貝為單位創(chuàng)建該直方圖。該直方圖可以計算為H[i] = tl彡t彡t2范圍內(nèi)的樣本數(shù),使得<formula>formula see original document page 17</formula>(29)這里AdB是直方圖分辨率以及dBmin是直方圖最小值。然后匹配增益可以近似為Gp[t1;t2]三 Δ ^iJdBmin(30a)其中
<formula>formula see original document page 17</formula>以及I是最大直方圖索引。使用該離散的直方圖,只需要存儲I值,以及利用G[t] 的每一新值容易地更新。“、,t2]??梢詷?gòu)思根據(jù)G[t]近似Gp[t1; t2]的其他方法,并且本發(fā)明旨在包括這些技術(shù)。 本發(fā)明該部分的關(guān)鍵方面在于對匹配增益G[t]執(zhí)行某種類型的平滑以產(chǎn)生長期匹配增益 Gp[t1;t2],而不是處理瞬時響度S[t]來產(chǎn)生長期響度Sp[t1; t2],從該長期響度然后可以通 過迭代處理估計GJt1,t2]。圖10和11顯示了分別類似于圖2和3的系統(tǒng),但是匹配增益G[t]的平滑(設(shè)備 或功能237)用于產(chǎn)生平滑的增益信號Gp[t1; t2](信號238)。在輸入230的參考響度(圖2、3、10、11)可以是“固定的”或“可變的”,參考響度
的源可以在實施本發(fā)明這些方面的安排的內(nèi)部或外部。例如,所述參考響度可由用戶設(shè)置, 在這種情況下該參考響度的源是外部的并且它可以保持“固定”一段時間周期直到用戶重 新設(shè)置它??商鎿Q地,參考響度可以是根據(jù)本發(fā)明從響度測量處理或設(shè)備推導(dǎo)出的另一音 頻源的響度測量,諸如圖1的實例中示出的結(jié)構(gòu)。音頻產(chǎn)生設(shè)備的正常音量控制可代替為根據(jù)本發(fā)明這些方面的處理或設(shè)備諸如 圖3或圖11的實例。在這種情況下,用戶操作的音量按鈕或滑動器等等將會控制圖3或圖 11的230處的參考響度,因此,音頻產(chǎn)生設(shè)備將具有與音量控制的用戶調(diào)節(jié)相匹配的響度。圖12中示出了可變參考的實例,其中參考響度Sref被代替為例如通過可變參考響 度設(shè)備或功能(“可變參考響度”)239根據(jù)響度信號S[t]計算的可變參考SMf [t]。在這 種安排中,在對于每一時間周期t的每一迭代的開始,在208將任何增益已經(jīng)應(yīng)用于所述激 勵之前,根據(jù)未修改的響度S [t]可以計算可變參考SMf[t]。通過可變響度參考功能239 的SMf[t]和S[t]的相關(guān)性可以采取各種形式來實現(xiàn)各種效果。例如,所述函數(shù)可以簡化 標(biāo)度S [t]來產(chǎn)生為原始響度的某固定比率的參考。可替換地,當(dāng)S[t]低于某一門限時該 函數(shù)可能產(chǎn)生大于S[t]的參考,以及當(dāng)S[t]高于某一門限時產(chǎn)生小于S[t]的參考,因此 減少了音頻感覺響度的動態(tài)范圍。不論這種函數(shù)的形式如何,都執(zhí)行前面所述的迭代以計 算G[t],以便
(31)然后,可以如上所述或者通過一些其他適當(dāng)?shù)募夹g(shù)來平滑匹配增益G[t]以獲得 期望的感覺效果。最后,可以引入音頻信號201和VCA方塊236之間的延遲240補(bǔ)償計算 平滑增益中的任何等待時間。這種延遲還可以在圖3和11的結(jié)構(gòu)中提供。圖3結(jié)構(gòu)的增益控制信號G[t]和圖11結(jié)構(gòu)的平滑增益控制信號Gp[t1; t2]在大 量應(yīng)用中是有用的,例如包括,感覺響度在不同聲道上變化的廣播電視或衛(wèi)星電臺。在這些 環(huán)境中,本發(fā)明的設(shè)備或方法可以比較來自每一聲道的音頻信號與參考響度級(或參考信 號的響度)。操作員或自動化設(shè)備可以使用這種增益調(diào)節(jié)每一聲道的響度。因此所有聲道 將會具有基本上相同的感覺響度。圖13示出了這種結(jié)構(gòu)的一個實例,其中來自多個電視或 音頻聲道的音頻,1到N,被施加于根據(jù)如圖3或11所示本發(fā)明方面的處理或設(shè)備250、252 的各種輸入201。為每一處理或設(shè)備250、252應(yīng)用相同的參考響度級,以在每一輸出236產(chǎn) 生經(jīng)過響度調(diào)節(jié)的第1聲道到第N聲道音頻。測量和增益調(diào)節(jié)技術(shù)還可以應(yīng)用于監(jiān)控輸入音頻資料,執(zhí)行識別主要包含人語音 信號的音頻內(nèi)容處理,以及計算增益,以便該語音信號基本上匹配前面定義的參考級的實 時測量設(shè)備。在2002年8月30日申請的序列號為10/233073的美國專利申請以及2004 年3月4日公布的美國專利申請公開US2004/0044525A1中,闡述了用于識別音頻資料中語 音的適當(dāng)技術(shù)。所述申請在此全部包含引作參考。由于大聲音頻內(nèi)容帶來的聽眾煩惱傾向 于集中于節(jié)目資料的語音部分,因此測量和增益調(diào)節(jié)方法可以極大地減小在電視、電影和 音樂資料中通常使用的音頻中的煩惱級差。實現(xiàn)本發(fā)明可以以硬件或軟件,或二者的組合(例如,可編程邏輯陣列)實現(xiàn)。除非特 別規(guī)定,所包括的作為本發(fā)明一部分的算法本質(zhì)上并不與任何特定的計算機(jī)或其他設(shè)備有 關(guān)。特別是,通過根據(jù)本發(fā)明的教導(dǎo)寫入程序可以使用各種通用機(jī)器,或者可以更方便地構(gòu) 造更專門的設(shè)備(例如,集成電路)來執(zhí)行所需的方法步驟。因此,可以在一個或更多可編 程計算機(jī)系統(tǒng)上執(zhí)行的一個或更多計算機(jī)程序中實現(xiàn)本發(fā)明,每一系統(tǒng)包括至少一個處理 器、至少一個數(shù)據(jù)存儲系統(tǒng)(包括易失性和非易失性存儲器和/和存儲單元)、至少一個輸 入設(shè)備或端口、以及至少一個輸出設(shè)備或端口。應(yīng)用程序代碼給輸入數(shù)據(jù)來執(zhí)行這里所述 的功能并產(chǎn)生輸出信息。該輸出信息以已知的方式應(yīng)用于一個或更多輸出設(shè)備。每一這種程序可以用任何想要的計算機(jī)語言(包括機(jī)器、匯編或高級程序、邏輯、或面向?qū)ο蟮某绦蛟O(shè)計語言)與計算機(jī)系統(tǒng)通信。在任何情況下,所述語言可以是編輯或 解釋的語言。每一這種計算機(jī)程序優(yōu)選地存儲或下載到通用或?qū)S每删幊逃嬎銠C(jī)可讀取的存 儲媒體或設(shè)備(例如,固體存儲器或媒體,或磁或光媒體)上,以當(dāng)計算機(jī)系統(tǒng)讀取存儲媒 體或設(shè)備執(zhí)行這里描述的程序時,配置和操作所述計算機(jī)。本發(fā)明的系統(tǒng)還可以認(rèn)為將其 實現(xiàn)為配置有計算機(jī)程序的計算機(jī)可讀存儲媒體,其中如此配置的存儲媒體使計算機(jī)系統(tǒng) 以特定和預(yù)定的方式操作來執(zhí)行這里描述的功能。已經(jīng)描述了本發(fā)明的大量實施例。無論如何,將會明白可以作出各種修改而不背 離本發(fā)明的精神和范圍。例如,可以獨立地排序上述的一些步驟,因此能夠以不同于所述的 順序執(zhí)行這些步驟。相應(yīng)地,其他實施例都位于以下權(quán)利要求書的范圍內(nèi)。
權(quán)利要求
一種用于處理音頻信號的方法,包括響應(yīng)于所述音頻信號計算增益值,所述增益值在與所述音頻信號相乘時使其總響度和參考響度級之間的誤差在門限之內(nèi),其中計算所述增益值的一部分是非線性處理,不存在用于所述增益值的閉合形式解,并且其中所述計算包括在線性處理中從所述音頻信號導(dǎo)出多頻帶激勵信號以及在非線性處理中從所述多頻帶激勵信號導(dǎo)出每個頻帶內(nèi)的特定響度和總響度,迭代調(diào)節(jié)所述激勵信號的幅度直到所述總響度和所述參考響度之間的誤差小于所述門限,所述迭代調(diào)節(jié)在迭代循環(huán)內(nèi)執(zhí)行,所述迭代循環(huán)包括導(dǎo)出每個頻帶內(nèi)的特定響度并且排除導(dǎo)出所述激勵信號,以及使用計算出的增益值調(diào)節(jié)所述音頻信號的響度。
2.根據(jù)權(quán)利要求1所述的方法,其中導(dǎo)出所述激勵信號包括時間積分。
3.根據(jù)權(quán)利要求2所述的方法,其中所述激勵信號是線性時間平滑的。
4.根據(jù)權(quán)利要求1所述的方法,其中所述方法還包括時間平滑所述增益值。
5.根據(jù)權(quán)利要求1所述的方法,其中所述方法還包括平滑所述增益值,所述平滑應(yīng)用 直方圖技術(shù)。
6.根據(jù)權(quán)利要求1所述的方法,其中所述迭代調(diào)節(jié)根據(jù)最小算法進(jìn)行操作。
7.根據(jù)權(quán)利要求6所述的方法,其中所述最小算法根據(jù)最小的梯度下降方法進(jìn)行操作。
8.根據(jù)權(quán)利要求1所述的方法,其中通過用戶設(shè)置所述參考響度。
9.根據(jù)權(quán)利要求1所述的方法,其中從所述音頻信號的未調(diào)節(jié)響度的度量導(dǎo)出所述參 考響度。
10.根據(jù)權(quán)利要求9所述的方法,其中所述參考響度是所述音頻信號的未調(diào)節(jié)響度的 標(biāo)度形式。
11.根據(jù)權(quán)利要求10所述的方法,其中當(dāng)所述音頻信號的未調(diào)節(jié)響度低于門限時,所 述參考響度大于所述音頻信號的未調(diào)節(jié)響度,以及當(dāng)所述音頻信號的未調(diào)節(jié)響度高于門限 時,所述參考響度小于所述音頻信號的未調(diào)節(jié)響度。
12.—種設(shè)備,適于執(zhí)行根據(jù)權(quán)利要求1到11中任一項所述的方法。
全文摘要
在計算音頻信號感覺響度中應(yīng)用從一組兩個或更多這些函數(shù)選擇的兩個或更多單位響度模型函數(shù)之一或其組合。例如,通過測量音頻信號是窄帶或?qū)拵У某潭瓤梢赃x擇函數(shù)。替換地或者利用從一組功能的這種選擇,計算增益值G[t],當(dāng)該增益應(yīng)用于所述音頻信號時,其產(chǎn)生基本上和參考響度相同的感覺響度。所述增益計算應(yīng)用包括感覺響度計算的迭代處理循環(huán)。
文檔編號G10L11/00GK101819771SQ201010134528
公開日2010年9月1日 申請日期2004年5月27日 優(yōu)先權(quán)日2003年5月28日
發(fā)明者布萊特·G·克羅克特, 邁克爾·J·施彌茲爾斯, 阿倫·J·西非爾特 申請人:杜比實驗室特許公司