亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

對(duì)話增強(qiáng)技術(shù)的制作方法

文檔序號(hào):2830543閱讀:283來源:國知局
專利名稱:對(duì)話增強(qiáng)技術(shù)的制作方法
技術(shù)領(lǐng)域
本專利申請(qǐng)的主題內(nèi)容一般涉及信號(hào)處理。
背景技術(shù)
音頻增強(qiáng)技術(shù)在家庭娛樂系統(tǒng)、立體聲以及其他消費(fèi)電子設(shè)備中經(jīng)常被用 來增強(qiáng)低音頻率,并且模擬各種收聽環(huán)境(例如音樂廳)。 一些技術(shù)企圖通過 例如添加更多的高頻率來使電影對(duì)話更清晰。然而,這些技術(shù)中沒有一個(gè)解決 相對(duì)于周圍環(huán)境和其他分量信號(hào)增強(qiáng)對(duì)話的問題。

發(fā)明內(nèi)容
多聲道音頻信號(hào)(例如,立體聲音頻)被處理成相對(duì)于周圍環(huán)境分量信號(hào) (例如,反射或混響聲音)以及其他分量信號(hào)修改語音分量信號(hào)(例如,電影中演員說的對(duì)話)的增益(例如,音量或響度)。在一個(gè)方面,語音分量信號(hào)被標(biāo) 識(shí)并修改。在一個(gè)方面,語音分量信號(hào)通過假設(shè)語音源(例如,演員當(dāng)前的說 話)在多聲道音頻信號(hào)的立體聲聲像的中心、并且通過考慮語音分量信號(hào)的頻 譜內(nèi)容來標(biāo)識(shí)。
公開了包括涉及方法、系統(tǒng)和計(jì)算機(jī)可讀介質(zhì)的實(shí)現(xiàn)的其他實(shí)現(xiàn)。 附圖描述


圖1是用于對(duì)話增強(qiáng)技術(shù)的混音模型的框圖。
圖2是示出使用時(shí)間一頻率方塊分解立體聲信號(hào)的圖形。
圖3A是用于為在聲像的中心的對(duì)話計(jì)算作為分解增益因數(shù)的函數(shù)的增益 的函數(shù)的圖形。
圖3B是用于為不在中心的對(duì)話計(jì)算作為分解增益系數(shù)的函數(shù)的增益的函 數(shù)的圖形。
圖4是示例對(duì)話增強(qiáng)系統(tǒng)的框圖。 圖5是示例對(duì)話增強(qiáng)過程的流程圖。
圖6是用于實(shí)現(xiàn)參考圖1-5所述的特征和過程的數(shù)字電視系統(tǒng)的框圖。
詳細(xì)描述 對(duì)話增強(qiáng)技術(shù)
圖1是用于對(duì)話增強(qiáng)技術(shù)的混音模型100的框圖。在該模型100中,收聽 者從左和右聲道接收音頻信號(hào)。音頻信號(hào)s與來自由因數(shù)a確定的方向的定域 聲音(localized sound)相對(duì)應(yīng)。獨(dú)立的音頻信號(hào)",和"2與經(jīng)常稱為環(huán)境聲或周
圍環(huán)境的橫向反射或混響聲音相對(duì)應(yīng)。立體聲信號(hào)可被記錄或混音,以使針對(duì) 給定音頻源,該源音頻信號(hào)相干地進(jìn)入具有具體方向提示(例如電平差、時(shí)間 差)的左和右音頻信號(hào)聲道,并且橫向反射或混響的獨(dú)立信號(hào)",和 進(jìn)入確定 聽覺事件廣度和收聽者環(huán)繞提示的聲道。模型100可數(shù)學(xué)地表示為具有捕捉音
頻源和周圍環(huán)境的定位的一個(gè)音頻源的立體聲信號(hào)的知覺推動(dòng)分解。
A(")"(") + "i(") p]
為獲得在具有多個(gè)同時(shí)發(fā)生的有效音頻源的非固定情況中有效的分解,[1]
6[2]
的分解可在多個(gè)頻帶內(nèi)獨(dú)立地且適應(yīng)時(shí)間地執(zhí)行。
W,"二鄧,A:) + iV,(a)
其中i是子頻帶指數(shù),而k是子頻帶時(shí)間指數(shù)。
圖2是示出使用時(shí)間一頻率方塊的立體聲信號(hào)的分解的圖形。在具有指數(shù) i和k的每一個(gè)時(shí)間一頻率方塊200中,信號(hào)S、 N,、 N2和分解增益因數(shù)A可 被獨(dú)立地估算。為了簡潔標(biāo)記起見,子頻帶和時(shí)間指數(shù)i和k在以下描述中被 忽略。
當(dāng)使用具有知覺推動(dòng)子頻帶帶寬的子頻帶分解時(shí),子頻帶的帶寬可被選擇 成等于一個(gè)關(guān)鍵頻帶。S、 M、 W和J可在每個(gè)子頻帶中、每隔t毫秒(例如
20ms)被近似估算。為了低的計(jì)算復(fù)雜性,短時(shí)傅立葉變換(STFT)可被用 來實(shí)現(xiàn)快速傅立葉變換(FFT)。給定立體聲子頻帶信號(hào)《和義2,可確定S、 ^、 ^、 W的估計(jì)。X,的功率的短時(shí)估計(jì)可表示為
尸"(/," = 4^2(/,4 [3] 其中E(.)是短時(shí)求平均運(yùn)算。對(duì)于其他信號(hào),可使用相同的約定,即^2、 尸,以及A-i^-P^是相應(yīng)的短時(shí)功率估計(jì)。M和W的功率被假設(shè)為相同,即
假設(shè)橫向獨(dú)立聲音的量對(duì)于左和右聲道是相同的。 估算A、 ^和^
給定立體聲信號(hào)的子頻帶表示,可確定功率(Fxl、 和歸一化的互相
關(guān)性。左和右聲道之間的歸一化的互相關(guān)性是
^、 A、 ^可計(jì)算為估算的^、尸m和cD的函數(shù)。
-水
與已知和未知變
:有關(guān)的等式為:
尸;n =尸s +尸w
尸"=」尸s +尸w
0 =
方程式[5]可求出A、 A以及A,以獲得
丄<formula>formula see original document page 8</formula>
S、 M以及i^的最小二乘估計(jì)
接著,S、 iV,以及^的最小二乘估計(jì)被計(jì)算為^、尸,以及P^的函數(shù)。對(duì)
于每個(gè)i和k,信號(hào)s可被估算為
二w,(S + A^) + W2(^S + iV2), 其中W和^是實(shí)值權(quán)重。估算誤差是
五=(1 _ w! _ W2爿)5" — wiV! _ w2iV2 在誤差E與X,和^[6]正交時(shí),即
:乘意義上是最佳的。
禾又重w,和m^在最小: 獲得兩個(gè)方程式
從中算得權(quán)重,
<formula>formula see original document page 8</formula>M的估計(jì)可以是
13(S + A^) + w4(^S + iV2)
估計(jì)誤差是
<formula>formula see original document page 8</formula><formula>formula see original document page 9</formula>[15]
用于計(jì)算A^的最小二乘估計(jì)
<formula>formula see original document page 9</formula>[16]
的權(quán)重為
<formula>formula see original document page 9</formula>[17]
后置按比例擴(kuò)縮(post-scaling) S、 A、 S2
在一些實(shí)現(xiàn)中,最小二乘估計(jì)可以后置按比例擴(kuò)縮,以使估計(jì)的功率與P, 和^^i^-i^相等。S的功率是
因而,為了獲得具有功率A的s的估計(jì),S被按置比例擴(kuò)縮
+ "W2)A + + O尸w 使用類似的推論,A和^按比例擴(kuò)縮
<formula>formula see original document page 9</formula>[18]

<formula>formula see original document page 9</formula>

05 + ,6) & + O5 + W6 )4 立體聲信號(hào)合成
給定先前描述的信號(hào)分解,與原始立體聲信號(hào)類似的信號(hào)可通過在每一次
且針對(duì)每一個(gè)子頻帶應(yīng)用[2]并將子頻帶變換回時(shí)域來獲得。 為了生成具有經(jīng)修改的對(duì)話增益的信號(hào),子頻帶被計(jì)算為
r2(Z 10 20 X(U)S(/,A;) + iV2(/,"其中g(shù)(i,k)是被計(jì)算以使對(duì)話增益被按需修改的以dB為單位的增益因數(shù)。 有幾種推動(dòng)如何計(jì)算g(i,k)的觀察-
通常對(duì)話在聲像的中心,即在屬于對(duì)話的時(shí)間A和頻率/的分量信號(hào)將 具有接近一 (0dB)的相應(yīng)的分解增益因數(shù)J(/,"。
語音信號(hào)包含多數(shù)高達(dá)4kHz的能量。8 kHz以上的語音實(shí)際上不包含能量。
語音通常也不包含非常低的頻率(例如低于約70Hz)。 這些觀察暗示g(a)在非常低的頻率以及8 kHz以上被設(shè)置為0 dB,以潛 在地盡可能小地修改立體聲信號(hào)。在其他頻率,g(/,/t)被控制為所需對(duì)話增益(^
和^(/,A:)的函數(shù)
= [22]
適當(dāng)?shù)暮瘮?shù)f的示例在圖3A中示出。注意在圖3A中,f與A(i,k)之間的 關(guān)系使用對(duì)數(shù)(犯)比例繪出,但是^4(a)以及/可另外以線性比例定義。針 對(duì)/的具體示例是
<formula>formula see original document page 10</formula>
其中W確定函數(shù)f的增益區(qū)的寬度,如圖3A所示。常數(shù)W與對(duì)話增益 的方向靈敏性有關(guān)。例如W=6 dB的值給多數(shù)信號(hào)以好的結(jié)果。但是注意對(duì) 于不同的信號(hào),不同的W可以是最佳的。
由于廣播或接收設(shè)備差的校準(zhǔn)(例如左和右聲道有不同的增益),對(duì)話可 能不是精確地在中心出現(xiàn)。在此情況下,函數(shù)/可被偏移,以使其中心與對(duì)話 位置相對(duì)應(yīng)。被經(jīng)偏移的函數(shù)/的示例在圖3B中示出。
替換實(shí)現(xiàn)和一般化
基于中心假設(shè)(或者通常的位置假設(shè))和語音的頻譜范圍的對(duì)話分量信號(hào) 的標(biāo)識(shí)在許多情況中是簡單且適用的。然而,對(duì)話標(biāo)識(shí)可被修改并潛在地改進(jìn)。 一種可能是探索諸如共振峰、諧波結(jié)構(gòu)、瞬變現(xiàn)象之類的更多的語音特征以檢 測對(duì)話分量信號(hào)。
如所提及地,對(duì)于不同的音頻材料,不同形狀的增益函數(shù)(例如圖3A和 3B)可能是最佳的。因而,可使用信號(hào)自適應(yīng)增益函數(shù)。
對(duì)話增益控制還可針對(duì)具有環(huán)繞聲音的家庭影院系統(tǒng)來實(shí)現(xiàn)。對(duì)話增益控制的一個(gè)重要方面是檢測對(duì)話是否在中心聲道。 一種實(shí)行這個(gè)的方法是檢測中 心是否具有充足的信號(hào)能量,使得對(duì)話有可能在中心聲道中。如果對(duì)話在中心
聲道中,則增益可被添加到中心聲道以控制對(duì)話音量。如果對(duì)話不在中心聲道 中(例如,如果環(huán)繞系統(tǒng)回放立體聲內(nèi)容),則可參考圖1-3如先前所描述地 施加兩聲道對(duì)話增益控制。
在一些實(shí)現(xiàn)中,所公開的對(duì)話增強(qiáng)技術(shù)可通過衰減除語音分量信號(hào)以外的 信號(hào)來實(shí)現(xiàn)。例如,多聲道音頻信號(hào)可包括語音分量信號(hào)(例如,對(duì)話信號(hào)) 以及其他分量信號(hào)(例如,混響)。其他分量信號(hào)可基于語音分量信號(hào)在多聲 道音頻信號(hào)的聲像中的位置而被修改(例如,被衰減),且語音分量信號(hào)可保 持不變。
對(duì)話增強(qiáng)系統(tǒng)
圖4是示例對(duì)話增強(qiáng)系統(tǒng)400的框圖。在一些實(shí)現(xiàn)中,系統(tǒng)400包括分析 濾波器組402、功率估計(jì)器404、信號(hào)估計(jì)器406、后置按比例擴(kuò)縮模塊408、 信號(hào)合成模塊410以及合成濾波器組412。雖然系統(tǒng)400的組件402-412示為 單獨(dú)的過程,但是兩個(gè)或多個(gè)組件的過程可組合到單個(gè)組件中。
對(duì)于每個(gè)時(shí)間k,多聲道信號(hào)通過分析濾波器組402成為子頻帶信號(hào)i。 在所示示例中,立體聲信號(hào)的左和右聲道;c,(w)、 &( )被分析濾波器組402被 分解成i子頻帶X,(/," 、 X2(/,"。功率估計(jì)器404生成先前已參考圖1禾n 2描 述的A、 2以及A的功率估計(jì)。信號(hào)估計(jì)器406從功率估計(jì)生成估計(jì)信號(hào)S、 A、以及A。后置按比例擴(kuò)縮模塊408按比例擴(kuò)縮信號(hào)估計(jì)以提供》、A以 及A 。信號(hào)合成模塊410接收后置按比例擴(kuò)縮信號(hào)估計(jì)以及分解增益因數(shù)A、 常數(shù)W和所需對(duì)話增益&,并且合成輸入到合成濾波器組412的左和右子頻
帶信號(hào)估計(jì)《a"以及《a"以提供具有基于C^修改的對(duì)話增益的左和右時(shí)域
信號(hào);(")和^(")。 對(duì)話增強(qiáng)過程
圖5是示例對(duì)話增強(qiáng)過程500的流程圖。在一些實(shí)現(xiàn)中,過程500通過將 多聲道音頻信號(hào)分解成頻率子頻帶信號(hào)(502)開始。分解可通過使用各種已 知變換的濾波器組來執(zhí)行,這些變換包括但不限于多相濾波器組、正交鏡像 濾波器組(QMF)、混合濾波器組、離散傅立葉變換(DFT)、修正離散余弦變換(MDCT)。
使用子頻帶信號(hào)估計(jì)音頻信號(hào)的兩個(gè)或更多個(gè)聲道的第一組功率(504)。 使用該第一組功率確定互相關(guān)性(506)。使用第一組功率和互相關(guān)性估計(jì)分 解增益因數(shù)(508)。分解增益因數(shù)為聲像中的對(duì)話源提供位置提示。使用第 一組功率和互相關(guān)性估計(jì)語音分量信號(hào)和周圍環(huán)境分量信號(hào)的第二組功率
(510)。使用第二組功率和分解增益因數(shù)估計(jì)語音和周圍環(huán)境分量信號(hào)(512)。 估計(jì)的語音和周圍環(huán)境分量信號(hào)被后置按比例擴(kuò)縮(514)。使用經(jīng)后置按比 例擴(kuò)縮的估計(jì)的語音和周圍環(huán)境分量信號(hào)以及所需對(duì)話增益合成具有修改的 對(duì)話增益的子頻帶信號(hào)(516)。所需對(duì)話增益可自動(dòng)設(shè)置或由用戶指定。合 成的子頻帶信號(hào)使用例如合成濾波器組被變換成具有修改對(duì)話增益的時(shí)域音 頻信號(hào)(512)。
用于背景抑制的輸出歸一化
在一些實(shí)現(xiàn)中,期望抑制背景場面的音頻而非增強(qiáng)對(duì)話信號(hào)。這可通過歸 一化具有對(duì)話增益的對(duì)話增強(qiáng)輸出信號(hào)實(shí)現(xiàn)。歸一化可按至少兩種不同的方式
執(zhí)行。在一個(gè)示例中,輸出信號(hào)《(/,"和《(/,"可通過歸一化因數(shù)^卿歸一化
另一示例,對(duì)話增強(qiáng)效果通過使用具有g(shù)",的權(quán)重^ -^歸一化來補(bǔ)償。
歸一化因數(shù)g"。^可采用與修改的對(duì)話增益10^相同的值。
為了最大化知覺品質(zhì),可修改&_。歸一化可既在頻域又在時(shí)域中執(zhí)行。
當(dāng)在頻域中執(zhí)行時(shí),均一化可針對(duì)施加對(duì)話增益的例如70 Hz與8 KHz之間的 頻帶執(zhí)行。
替換地,類似的結(jié)果可實(shí)現(xiàn)為在不將增益施加到s(a)時(shí)衰減^(a)和
iV2(/,"。此概念可使用以下方程式描述
<formula>formula see original document page 12</formula>基于單聲道檢測使用單獨(dú)對(duì)話音量當(dāng)輸入信號(hào)《(/,"和義2(/,?;绢愃茣r(shí),例如輸入是類似單聲道信號(hào), 則輸入的幾乎每一個(gè)部分可被視為S,并且當(dāng)用戶提供所需對(duì)話增益時(shí),所需 對(duì)話增益增大信號(hào)的音量。為防止這種情況,期望使用單獨(dú)的對(duì)話音量(SDV) 技術(shù)來觀察輸入信號(hào)的特性。
在[4]中,計(jì)算立體聲信號(hào)的歸一化的互相關(guān)性。該歸一化的互相關(guān)性可 被用作單聲道信號(hào)檢測的度量。當(dāng)[4]中的(P超過給定閾值時(shí),輸入信號(hào)可被認(rèn) 作單聲道信號(hào),并且單獨(dú)的對(duì)話音量可被自動(dòng)關(guān)閉。相反,當(dāng)①小于給定閾值 時(shí),輸入信號(hào)可被認(rèn)作立體聲信號(hào),并且單獨(dú)的對(duì)話音量可被自動(dòng)打開。對(duì)話 增益可針對(duì)單獨(dú)的對(duì)話音量用作算法開關(guān)
;(a):i,對(duì)于^〉^闘。,
^ |26J
此外,當(dāng)p在7V,。與77^^。之間時(shí),;(a)可表示為p的函數(shù)
= /W,g(a)),對(duì)于7V畫。> 0 > 77zW [27] 一個(gè)示例是將針對(duì);(/,W的反比例加權(quán)施加到p為
g(a) = ^—"!^。"。
g(a),對(duì)于 K, > -> 7K_. [28]
7 — ^ W&咖
為了防止;(/,W的突變,時(shí)間平滑技術(shù)可被結(jié)合以獲得 數(shù)字電視系統(tǒng)示例
圖6是用于實(shí)現(xiàn)參考圖l-5所述的特征和過程的示例數(shù)字電視系統(tǒng)600的 框圖。數(shù)字電視(DTV)是借助于數(shù)字信號(hào)廣播和接收運(yùn)動(dòng)畫面和聲音的電信 系統(tǒng)。DTV采用數(shù)字調(diào)制數(shù)據(jù),其被數(shù)字壓縮且需要通過專門設(shè)計(jì)的電視機(jī) 或帶有機(jī)頂盒的標(biāo)準(zhǔn)接收機(jī)或裝有電視卡的PC來解碼。盡管圖6中的系統(tǒng)是 DTV系統(tǒng),但用于對(duì)話增強(qiáng)的所公開實(shí)現(xiàn)也可應(yīng)用于模擬TV系統(tǒng)或任何能夠 對(duì)話增強(qiáng)的其他系統(tǒng)。
在某些實(shí)現(xiàn)中,系統(tǒng)600可包括接口 602、解調(diào)器604、解碼器606和音 頻/視頻輸出608、用戶輸入接口610、 一個(gè)或多個(gè)處理器612 (例如,Intel⑧處 理器)和一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)614 (例如,RAM、 ROM、 SDRAM、硬 盤、光盤、閃存、SAN等)。這些組件各自耦合到一個(gè)或多個(gè)通信信道616 (例 如,總線)。在某些實(shí)現(xiàn)中,接口 602包括用于獲取音頻信號(hào)或組合的音頻/視頻信號(hào)的各種電路。例如,在模擬電視系統(tǒng)中,接口可包括天線電子設(shè)備、 調(diào)諧器或混頻器、射頻(RF)放大器、本機(jī)振蕩器、中頻(IF)放大器、 一個(gè)
或多個(gè)濾波器、解調(diào)器、音頻放大器等。系統(tǒng)600的其他實(shí)現(xiàn)是可能的,包括
帶有更多或更小組件的實(shí)現(xiàn)。
調(diào)諧器602可以是用于接收包括視頻和音頻內(nèi)容的數(shù)字電視信號(hào)的DTV 調(diào)諧器。解調(diào)器604從數(shù)字電視信號(hào)中提取視頻和音頻信號(hào)。如果視頻和音頻 信號(hào)被編碼(例如,MPEG編碼),則解碼器606解碼這些信號(hào)。A/V輸出可 以是能夠顯示視頻和播放音頻的任何設(shè)備(例如,TV顯示器、計(jì)算機(jī)監(jiān)視器、 LCD、揚(yáng)聲器、音頻系統(tǒng))。
在一些實(shí)現(xiàn)中,可例如使用遙控器上的顯示設(shè)備或者在屏幕上的顯示 (OSD)向用戶顯示對(duì)話音量級(jí)。對(duì)話音量級(jí)可相對(duì)于主音量級(jí)。 一個(gè)或多個(gè) 圖形對(duì)象可用來顯示對(duì)話音量級(jí)、以及相對(duì)于主音量的對(duì)話音量級(jí)。例如,第 一圖形對(duì)象(例如,條)可顯示用來指示主音量,且第二圖形對(duì)象(例如,線) 可與第一圖形對(duì)象一起顯示或組合在第一圖形對(duì)象上以指示對(duì)話音量級(jí)。
在一些實(shí)現(xiàn)中,用戶輸入接口可包括用于接收并解碼由遙控器生成的紅外 或無線信號(hào)的電路(例如,無線或紅外接收器)和/或軟件。遙控器可包括單獨(dú) 的對(duì)話音量控制鍵或按鈕、或者用于改變主音量控制鍵或按鈕的狀態(tài)的單獨(dú)的 對(duì)話音量控制選擇鍵,以使主音量控件可被用來控制主音量或單獨(dú)的對(duì)話音 量。在一些實(shí)現(xiàn)中,對(duì)話音量或主音量鍵可改變其可視外觀以指示其功能。
示例控制器和用戶接口在美國專利申請(qǐng)No._、題為"Controller and
User Interface For Dialogue Enhancement Techniques"(用于對(duì)話增強(qiáng)技術(shù)的控 制器和用戶接口) 、 2007年9月14日提交的、律師案號(hào)為No. 19819- 160001 中描述,該專利申請(qǐng)通過引用完整結(jié)合于此。
在一些實(shí)現(xiàn)中, 一個(gè)或多個(gè)處理器可執(zhí)行存儲(chǔ)于計(jì)算機(jī)可讀介質(zhì)614中的 代碼,以實(shí)現(xiàn)如參照?qǐng)D1-5所描述的特征和操作618、 620、 622、 624、 626、 628、 630和632。
計(jì)算機(jī)可讀介質(zhì)還包括操作系統(tǒng)618、分析/合成濾波器組620、功率估計(jì) 器622、信號(hào)估計(jì)器624、后置按比例擴(kuò)縮模塊626以及信號(hào)合成器628。術(shù)語 "計(jì)算機(jī)可讀介質(zhì)"表示參與向處理器612提供指令以供執(zhí)行的任何介質(zhì),包括但不限于非易失性介質(zhì)(例如光盤或磁盤)、易失性介質(zhì)(例如存儲(chǔ)器)和 傳輸介質(zhì)。傳輸介質(zhì)包括但不限于,同軸電纜、銅線和光纖。傳輸介質(zhì)也以聲、 光或射頻電波的形式出現(xiàn)。
操作系統(tǒng)618可以是多用戶、多處理、多任務(wù)、多線程、實(shí)時(shí)等。操作系 統(tǒng)618執(zhí)行基本任務(wù),包括但不限于識(shí)別來自用戶輸入接口 610的輸入;保 持跟蹤并管理計(jì)算機(jī)可讀介質(zhì)614 (例如存儲(chǔ)器或存儲(chǔ)設(shè)備)上的文件和目錄; 控制外圍設(shè)備;以及管理一個(gè)或多個(gè)通信信道616上的通信量。
上述特征可有利地實(shí)現(xiàn)為可在可編程系統(tǒng)上執(zhí)行的一個(gè)或多個(gè)計(jì)算機(jī)程 序,該可編程系統(tǒng)包括至少一個(gè)可編程處理器,其被耦合以從數(shù)據(jù)存儲(chǔ)系統(tǒng) 接收數(shù)據(jù)和指令,并將數(shù)據(jù)和指令發(fā)送到數(shù)據(jù)存儲(chǔ)系統(tǒng);至少一個(gè)輸入設(shè)備; 以及至少一個(gè)輸出設(shè)備。計(jì)算機(jī)程序是一組指令,該組指令可在計(jì)算機(jī)中直接 或間接地使用以執(zhí)行一定的活動(dòng)或產(chǎn)生一定的結(jié)果。計(jì)算機(jī)程序能夠以包括編 譯或解釋語言的任何形式的編程語言(例如,Objective-C(面向?qū)ο蟮腃語言)、 Java)來編寫,且它能夠以任何形式使用,包括作為獨(dú)立程序或作為模塊、組 件、子例程或適合在計(jì)算環(huán)境中使用的其他單元。
用于執(zhí)行指令程序的適當(dāng)處理器包括作為示例的通用和專用微處理器和 任何類型的計(jì)算機(jī)的單處理器或多處理器或多核之一。 一般而言,處理器將從 只讀存儲(chǔ)器或隨機(jī)存取存儲(chǔ)器或兩者接收指令和數(shù)據(jù)。計(jì)算機(jī)的基本元件是用 于執(zhí)行指令的處理器和用于存儲(chǔ)指令和數(shù)據(jù)的一個(gè)或多個(gè)存儲(chǔ)器。 一般而言, 計(jì)算機(jī)還包括用于存儲(chǔ)數(shù)據(jù)文件的一個(gè)或多個(gè)大容量存儲(chǔ)設(shè)備,或有效地耦合 以與這些設(shè)備通信;這種設(shè)備包括諸如內(nèi)部磁盤和可移動(dòng)盤的磁盤;磁光盤; 以及光盤。適用于有形地表達(dá)計(jì)算機(jī)程序指令和數(shù)據(jù)的存儲(chǔ)設(shè)備包括所有形式 的非易失性存儲(chǔ)器,包括作為示例的諸如EPROM、 EEPROM和閃存設(shè)備的半 導(dǎo)體存儲(chǔ)設(shè)備;諸如內(nèi)部硬盤和可移動(dòng)盤的磁盤;磁光盤;以及CD-ROM和 DVD-ROM盤。處理器和存儲(chǔ)器可由ASIC(專用集成電路)補(bǔ)充或結(jié)合到ASIC 中。
為了提供與用戶的交互,可在具有諸如用于向用戶顯示信息的CRT (陰 極射線管)或LCD (液晶顯示器)監(jiān)視器之類的顯示設(shè)備與用戶可通過它向計(jì) 算機(jī)提供輸入的諸如鼠標(biāo)或跟蹤球的鍵盤和定位設(shè)備的計(jì)算機(jī)上實(shí)現(xiàn)特征??稍诎ㄖT如數(shù)據(jù)服務(wù)器的后端組件的計(jì)算機(jī)系統(tǒng)中,或在包括諸如應(yīng)用 服務(wù)器或因特網(wǎng)服務(wù)器的中間件組件的計(jì)算機(jī)系統(tǒng)中,或在包括諸如具有圖形 用戶界面或因特網(wǎng)瀏覽器的客戶計(jì)算機(jī)的前端組件的計(jì)算機(jī)系統(tǒng)中,或其組合 中,實(shí)現(xiàn)這些特征。系統(tǒng)的組件可通過諸如通信網(wǎng)絡(luò)的任何形式或介質(zhì)的數(shù)字
數(shù)據(jù)通信來連接。通信網(wǎng)絡(luò)的示例包括例如LAN、 WAN和構(gòu)成因特網(wǎng)的計(jì)算
機(jī)和網(wǎng)絡(luò)。
計(jì)算機(jī)系統(tǒng)可包括客戶機(jī)和服務(wù)器。客戶機(jī)和服務(wù)器一般相距甚遠(yuǎn)且通常 通過網(wǎng)絡(luò)交互??蛻魴C(jī)和服務(wù)器的關(guān)系根據(jù)在相應(yīng)計(jì)算機(jī)上運(yùn)行的且彼此具有 客戶機(jī)一服務(wù)器關(guān)系的計(jì)算機(jī)程序來產(chǎn)生。
已經(jīng)描述多個(gè)實(shí)現(xiàn)。然而,將理解可進(jìn)行各種修改。例如,可組合、刪除、 修改或補(bǔ)充一個(gè)或多個(gè)實(shí)現(xiàn)的要素以形成進(jìn)一步的實(shí)現(xiàn)。作為又一個(gè)示例,在 附圖中描述的邏輯流程并非必需所示的特定順序或連續(xù)順序來實(shí)現(xiàn)所要求的 結(jié)果。此外,可提供其他步驟,或可從所述流程中去除步驟,并將其他組件添 加到所述系統(tǒng),或從所述系統(tǒng)去除其它組件。因此,其他實(shí)現(xiàn)在以下權(quán)利要求 的范圍內(nèi)。
權(quán)利要求
1.一種方法,包括獲得包括語音分量信號(hào)和其他分量信號(hào)的多聲道音頻信號(hào);以及基于所述音頻信號(hào)的聲像中的所述語音分量信號(hào)的位置修改所述語音分量信號(hào)。
2. 如權(quán)利要求1所述的方法,其特征在于,修改還包括基于所述語音分量信號(hào)的頻譜內(nèi)容修改所述語音分量信號(hào)。
3. 如權(quán)利要求1或2所述的方法,其特征在于,所述修改還包括 確定所述聲像中的所述語音分量信號(hào)的位置;以及 將增益因數(shù)施加到所述語音分量信號(hào)。
4. 如權(quán)利要求3所述的方法,其特征在于,所述增益因數(shù)是所述語音分 量信號(hào)的所述位置以及用于所述語音分量信號(hào)的所需增益的函數(shù)。
5. 如權(quán)利要求4所述的方法,其特征在于,所述函數(shù)是具有與所述增益 因數(shù)的方向敏感性有關(guān)的增益區(qū)的信號(hào)自適應(yīng)增益函數(shù)。
6. 如上述權(quán)利要求中任一項(xiàng)所述的方法,其特征在于,所述修改還包括 在時(shí)域或頻域中使用歸一化因數(shù)歸一化所述多聲道音頻信號(hào)。
7. 如上述權(quán)利要求中任一項(xiàng)所述的方法,其特征在于,還包括 確定所述音頻信號(hào)實(shí)質(zhì)上是否是單聲道的;以及如果所述音頻信號(hào)實(shí)質(zhì)上不是單聲道的,則自動(dòng)修改所述語音分量信號(hào)。
8. 如權(quán)利要求7所述的方法,其特征在于,確定所述音頻信號(hào)實(shí)質(zhì)上是 否是單聲道的還包括確定所述音頻信號(hào)的兩個(gè)或更多個(gè)聲道之間的互相關(guān)性;以及 將所述互相關(guān)性與一個(gè)或多個(gè)閾值相比較;以及 基于所述比較的結(jié)果確定所述音頻信號(hào)實(shí)質(zhì)上是否是單聲道。
9. 如上述權(quán)利要求中任一項(xiàng)所述的方法,其特征在于,修改還包括 將所述音頻信號(hào)分解成多個(gè)頻率子頻帶信號(hào);使用所述子頻帶信號(hào)估計(jì)所述多聲道音頻信號(hào)的兩個(gè)或更多個(gè)聲道的第 一組功率;使用所述第一組估計(jì)的功率確定互相關(guān)性; 使用所述第一組估計(jì)的功率和互相關(guān)性估計(jì)分解增益因數(shù)。
10. 如權(quán)利要求9所述的方法,其特征在于,至少一個(gè)子頻帶的帶寬被選擇成與人類聽覺系統(tǒng)的一個(gè)關(guān)鍵頻帶相等。
11. 如權(quán)利要求8所述的方法,其特征在于,包括從所述第一組功率和所述互相關(guān)性估計(jì)所述語音分量信號(hào)和周圍環(huán)境分 量信號(hào)的第二組功率。
12. 如權(quán)利要求ll所述的方法,其特征在于,還包括使用所述第二組功率和所述分解增益因數(shù)估計(jì)所述語音分量信號(hào)和所述 周圍環(huán)境分量信號(hào)。
13. 如權(quán)利要求12所述的方法,其特征在于,使用最小二乘估計(jì)確定所估計(jì)的語音和周圍環(huán)境分量信號(hào)。
14. 如權(quán)利要求12所述的方法,其特征在于,所述互相關(guān)性被歸一化。
15. 如權(quán)利要求13或14所述的方法,其特征在于,所估計(jì)的語音分量信 號(hào)和所估計(jì)的周圍環(huán)境分量信號(hào)被后置按比例擴(kuò)縮。
16. 如權(quán)利要求11至15中任一項(xiàng)所述的方法,其特征在于,還包括 使用所估計(jì)的第二功率和用戶指定增益合成子頻帶信號(hào)。
17. 如權(quán)利要求16所述的方法,其特征在于,還包括將所合成的子頻帶信號(hào)變換成具有用所述用戶指定的增益修改的語音分 量信號(hào)的時(shí)域音頻信號(hào)。
18. —種方法,包括 獲得音頻信號(hào);獲得指定所述音頻信號(hào)的第一分量信號(hào)的修改的用戶輸入;以及 基于所述輸入和所述音頻信號(hào)的聲像中的所述第一分量信號(hào)的位置提示 修改所述第一分量信號(hào)。
19. 如權(quán)利要求18所述的方法,其特征在于,所述修改還包括 將增益因數(shù)施加到所述第一分量信號(hào)。
20. 如權(quán)利要求19所述的方法,其特征在于,所述增益因數(shù)是所述第一 分量信號(hào)的所述位置提示和所需增益的函數(shù)。
21. 如權(quán)利要求20所述的方法,其特征在于,所述函數(shù)具有與所述增益 因數(shù)的方向敏感性有關(guān)的增益區(qū)。
22. 如權(quán)利要求18至21中任一項(xiàng)所述的方法,其特征在于,所述修改還包括在時(shí)域或頻域中使用歸一化因數(shù)歸一化所述音頻信號(hào)。
23. 如權(quán)利要求18至22中任一項(xiàng)所述的方法,其特征在于,所述修改還 包括將所述音頻信號(hào)分解成多個(gè)頻率子頻帶信號(hào);使用所述子頻帶信號(hào)估計(jì)所述音頻信號(hào)的兩個(gè)或多個(gè)聲道的第一組功率;使用所述第一組功率確定互相關(guān)性;使用所述第一組功率和互相關(guān)性估計(jì)分解增益因數(shù);從所述第一組功率和所述互相關(guān)性估計(jì)所述第一分量信號(hào)和第二分量信 號(hào)的第二組功率;使用所述第二組功率和所述分解增益因數(shù)估計(jì)所述第一分量信號(hào)和所述 第二分量信號(hào);使用所估計(jì)的第一和第二分量信號(hào)和所述輸入合成子頻帶信號(hào);以及 將所合成的子頻帶信號(hào)變換成具有修改的第一分量信號(hào)的時(shí)域音頻信號(hào)。
24. —種系統(tǒng),包括接口,所述接口可配置用于獲得包括語音分量信號(hào)和其他分量信號(hào)的多聲 道音頻信號(hào);以及處理器,所述處理器耦合到所述接口、并且可配置成基于所述音頻信號(hào)的 聲像中的所述語音分量信號(hào)的位置修改所述語音分量信號(hào)。
25. —種方法,包括獲得包括語音分量信號(hào)和其他分量信號(hào)的多聲道音頻信號(hào);以及 基于所述多聲道音頻信號(hào)的聲像中的所述語音分量信號(hào)的位置修改所述 其他分量信號(hào)。
全文摘要
多聲道音頻信號(hào)(例如立體聲音頻)被處理成相對(duì)于周圍環(huán)境分量信號(hào)(例如反射或混響聲音)或其他分量信號(hào)修改語音分量信號(hào)(例如電影中演員說的對(duì)話)的增益(例如音量或響度)。在一個(gè)方面,語音分量信號(hào)被標(biāo)識(shí)并修改。在一個(gè)方面,語音分量信號(hào)通過假設(shè)語音源(例如演員當(dāng)前說話)在多聲道音頻信號(hào)的立體聲聲像的中心、并且通過考慮語音分量信號(hào)的頻譜內(nèi)容來標(biāo)識(shí)。
文檔編號(hào)G10L19/00GK101518100SQ200780034351
公開日2009年8月26日 申請(qǐng)日期2007年9月14日 優(yōu)先權(quán)日2006年9月14日
發(fā)明者C·法勒, 吳賢午, 鄭亮源 申請(qǐng)人:Lg電子株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1