對(duì)話增強(qiáng)技術(shù)的制作方法

文檔序號(hào)：2830543閱讀：283來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：對(duì)話增強(qiáng)技術(shù)的制作方法
技術(shù)領(lǐng)域：
本專利申請(qǐng)的主題內(nèi)容一般涉及信號(hào)處理。
背景技術(shù)：
音頻增強(qiáng)技術(shù)在家庭娛樂系統(tǒng)、立體聲以及其他消費(fèi)電子設(shè)備中經(jīng)常被用來增強(qiáng)低音頻率，并且模擬各種收聽環(huán)境(例如音樂廳)。一些技術(shù)企圖通過例如添加更多的高頻率來使電影對(duì)話更清晰。然而，這些技術(shù)中沒有一個(gè)解決相對(duì)于周圍環(huán)境和其他分量信號(hào)增強(qiáng)對(duì)話的問題。

發(fā)明內(nèi)容
多聲道音頻信號(hào)(例如,立體聲音頻)被處理成相對(duì)于周圍環(huán)境分量信號(hào) (例如,反射或混響聲音)以及其他分量信號(hào)修改語音分量信號(hào)(例如,電影中演員說的對(duì)話)的增益(例如,音量或響度)。在一個(gè)方面，語音分量信號(hào)被標(biāo) 識(shí)并修改。在一個(gè)方面，語音分量信號(hào)通過假設(shè)語音源(例如，演員當(dāng)前的說話)在多聲道音頻信號(hào)的立體聲聲像的中心、并且通過考慮語音分量信號(hào)的頻譜內(nèi)容來標(biāo)識(shí)。
公開了包括涉及方法、系統(tǒng)和計(jì)算機(jī)可讀介質(zhì)的實(shí)現(xiàn)的其他實(shí)現(xiàn)。附圖描述

圖1是用于對(duì)話增強(qiáng)技術(shù)的混音模型的框圖。
圖2是示出使用時(shí)間一頻率方塊分解立體聲信號(hào)的圖形。
圖3A是用于為在聲像的中心的對(duì)話計(jì)算作為分解增益因數(shù)的函數(shù)的增益的函數(shù)的圖形。
圖3B是用于為不在中心的對(duì)話計(jì)算作為分解增益系數(shù)的函數(shù)的增益的函數(shù)的圖形。
圖4是示例對(duì)話增強(qiáng)系統(tǒng)的框圖。圖5是示例對(duì)話增強(qiáng)過程的流程圖。
圖6是用于實(shí)現(xiàn)參考圖1-5所述的特征和過程的數(shù)字電視系統(tǒng)的框圖。
詳細(xì)描述對(duì)話增強(qiáng)技術(shù)
圖1是用于對(duì)話增強(qiáng)技術(shù)的混音模型100的框圖。在該模型100中，收聽者從左和右聲道接收音頻信號(hào)。音頻信號(hào)s與來自由因數(shù)a確定的方向的定域聲音(localized sound)相對(duì)應(yīng)。獨(dú)立的音頻信號(hào)",和"2與經(jīng)常稱為環(huán)境聲或周
圍環(huán)境的橫向反射或混響聲音相對(duì)應(yīng)。立體聲信號(hào)可被記錄或混音，以使針對(duì) 給定音頻源，該源音頻信號(hào)相干地進(jìn)入具有具體方向提示(例如電平差、時(shí)間差)的左和右音頻信號(hào)聲道，并且橫向反射或混響的獨(dú)立信號(hào)",和進(jìn)入確定聽覺事件廣度和收聽者環(huán)繞提示的聲道。模型100可數(shù)學(xué)地表示為具有捕捉音
頻源和周圍環(huán)境的定位的一個(gè)音頻源的立體聲信號(hào)的知覺推動(dòng)分解。
A(")"(") + "i(") p]
為獲得在具有多個(gè)同時(shí)發(fā)生的有效音頻源的非固定情況中有效的分解，[1]
6[2]
的分解可在多個(gè)頻帶內(nèi)獨(dú)立地且適應(yīng)時(shí)間地執(zhí)行。
W，"二鄧,A:) + iV,(a)
其中i是子頻帶指數(shù)，而k是子頻帶時(shí)間指數(shù)。
圖2是示出使用時(shí)間一頻率方塊的立體聲信號(hào)的分解的圖形。在具有指數(shù) i和k的每一個(gè)時(shí)間一頻率方塊200中，信號(hào)S、 N,、 N2和分解增益因數(shù)A可被獨(dú)立地估算。為了簡潔標(biāo)記起見，子頻帶和時(shí)間指數(shù)i和k在以下描述中被忽略。
當(dāng)使用具有知覺推動(dòng)子頻帶帶寬的子頻帶分解時(shí)，子頻帶的帶寬可被選擇成等于一個(gè)關(guān)鍵頻帶。S、 M、 W和J可在每個(gè)子頻帶中、每隔t毫秒(例如
20ms)被近似估算。為了低的計(jì)算復(fù)雜性，短時(shí)傅立葉變換(STFT)可被用來實(shí)現(xiàn)快速傅立葉變換(FFT)。給定立體聲子頻帶信號(hào)《和義2，可確定S、 ^、 ^、 W的估計(jì)。X,的功率的短時(shí)估計(jì)可表示為
尸"(/," = 4^2(/,4 [3] 其中E(.)是短時(shí)求平均運(yùn)算。對(duì)于其他信號(hào)，可使用相同的約定，即^2、尸,以及A-i^-P^是相應(yīng)的短時(shí)功率估計(jì)。M和W的功率被假設(shè)為相同，即
假設(shè)橫向獨(dú)立聲音的量對(duì)于左和右聲道是相同的。估算A、 ^和^
給定立體聲信號(hào)的子頻帶表示，可確定功率(Fxl、和歸一化的互相
關(guān)性。左和右聲道之間的歸一化的互相關(guān)性是
^、 A、 ^可計(jì)算為估算的^、尸m和cD的函數(shù)。
-水
與已知和未知變
:有關(guān)的等式為:
尸;n =尸s +尸w
尸"=」尸s +尸w
0 =
方程式[5]可求出A、 A以及A，以獲得
丄<formula>formula see original document page 8</formula>
S、 M以及i^的最小二乘估計(jì)
接著，S、 iV,以及^的最小二乘估計(jì)被計(jì)算為^、尸,以及P^的函數(shù)。對(duì)
于每個(gè)i和k，信號(hào)s可被估算為
二w,(S + A^) + W2(^S + iV2), 其中W和^是實(shí)值權(quán)重。估算誤差是
五=(1 _ w！ _ W2爿)5" — wiV! _ w2iV2 在誤差E與X,和^[6]正交時(shí)，即
:乘意義上是最佳的。
禾又重w,和m^在最小: 獲得兩個(gè)方程式
從中算得權(quán)重，
<formula>formula see original document page 8</formula>M的估計(jì)可以是
13(S + A^) + w4(^S + iV2)
估計(jì)誤差是
<formula>formula see original document page 8</formula><formula>formula see original document page 9</formula>[15]
用于計(jì)算A^的最小二乘估計(jì)
<formula>formula see original document page 9</formula>[16]
的權(quán)重為
<formula>formula see original document page 9</formula>[17]
后置按比例擴(kuò)縮(post-scaling) S、 A、 S2
在一些實(shí)現(xiàn)中，最小二乘估計(jì)可以后置按比例擴(kuò)縮，以使估計(jì)的功率與P, 和^^i^-i^相等。S的功率是
因而，為了獲得具有功率A的s的估計(jì)，S被按置比例擴(kuò)縮
+ "W2)A + + O尸w 使用類似的推論，A和^按比例擴(kuò)縮
<formula>formula see original document page 9</formula>[18]
間
<formula>formula see original document page 9</formula>
見
05 + ，6) & + O5 + W6 )4 立體聲信號(hào)合成
給定先前描述的信號(hào)分解，與原始立體聲信號(hào)類似的信號(hào)可通過在每一次
且針對(duì)每一個(gè)子頻帶應(yīng)用[2]并將子頻帶變換回時(shí)域來獲得。為了生成具有經(jīng)修改的對(duì)話增益的信號(hào)，子頻帶被計(jì)算為
r2(Z 10 20 X(U)S(/,A;) + iV2(/,"其中g(shù)(i,k)是被計(jì)算以使對(duì)話增益被按需修改的以dB為單位的增益因數(shù)。有幾種推動(dòng)如何計(jì)算g(i,k)的觀察-
通常對(duì)話在聲像的中心，即在屬于對(duì)話的時(shí)間A和頻率/的分量信號(hào)將具有接近一 (0dB)的相應(yīng)的分解增益因數(shù)J(/，"。
語音信號(hào)包含多數(shù)高達(dá)4kHz的能量。8 kHz以上的語音實(shí)際上不包含能量。
語音通常也不包含非常低的頻率(例如低于約70Hz)。這些觀察暗示g(a)在非常低的頻率以及8 kHz以上被設(shè)置為0 dB，以潛在地盡可能小地修改立體聲信號(hào)。在其他頻率，g(/，/t)被控制為所需對(duì)話增益(^
和^(/，A:)的函數(shù)
= [22]
適當(dāng)?shù)暮瘮?shù)f的示例在圖3A中示出。注意在圖3A中，f與A(i,k)之間的關(guān)系使用對(duì)數(shù)(犯)比例繪出，但是^4(a)以及/可另外以線性比例定義。針對(duì)/的具體示例是
<formula>formula see original document page 10</formula>
其中W確定函數(shù)f的增益區(qū)的寬度，如圖3A所示。常數(shù)W與對(duì)話增益的方向靈敏性有關(guān)。例如W=6 dB的值給多數(shù)信號(hào)以好的結(jié)果。但是注意對(duì) 于不同的信號(hào)，不同的W可以是最佳的。
由于廣播或接收設(shè)備差的校準(zhǔn)(例如左和右聲道有不同的增益)，對(duì)話可能不是精確地在中心出現(xiàn)。在此情況下，函數(shù)/可被偏移，以使其中心與對(duì)話位置相對(duì)應(yīng)。被經(jīng)偏移的函數(shù)/的示例在圖3B中示出。
替換實(shí)現(xiàn)和一般化
基于中心假設(shè)(或者通常的位置假設(shè))和語音的頻譜范圍的對(duì)話分量信號(hào) 的標(biāo)識(shí)在許多情況中是簡單且適用的。然而，對(duì)話標(biāo)識(shí)可被修改并潛在地改進(jìn)。一種可能是探索諸如共振峰、諧波結(jié)構(gòu)、瞬變現(xiàn)象之類的更多的語音特征以檢測對(duì)話分量信號(hào)。
如所提及地，對(duì)于不同的音頻材料，不同形狀的增益函數(shù)(例如圖3A和 3B)可能是最佳的。因而，可使用信號(hào)自適應(yīng)增益函數(shù)。
對(duì)話增益控制還可針對(duì)具有環(huán)繞聲音的家庭影院系統(tǒng)來實(shí)現(xiàn)。對(duì)話增益控制的一個(gè)重要方面是檢測對(duì)話是否在中心聲道。一種實(shí)行這個(gè)的方法是檢測中心是否具有充足的信號(hào)能量，使得對(duì)話有可能在中心聲道中。如果對(duì)話在中心
聲道中，則增益可被添加到中心聲道以控制對(duì)話音量。如果對(duì)話不在中心聲道中(例如，如果環(huán)繞系統(tǒng)回放立體聲內(nèi)容)，則可參考圖1-3如先前所描述地施加兩聲道對(duì)話增益控制。
在一些實(shí)現(xiàn)中，所公開的對(duì)話增強(qiáng)技術(shù)可通過衰減除語音分量信號(hào)以外的信號(hào)來實(shí)現(xiàn)。例如，多聲道音頻信號(hào)可包括語音分量信號(hào)(例如，對(duì)話信號(hào)) 以及其他分量信號(hào)(例如，混響)。其他分量信號(hào)可基于語音分量信號(hào)在多聲道音頻信號(hào)的聲像中的位置而被修改(例如，被衰減)，且語音分量信號(hào)可保持不變。
對(duì)話增強(qiáng)系統(tǒng)
圖4是示例對(duì)話增強(qiáng)系統(tǒng)400的框圖。在一些實(shí)現(xiàn)中，系統(tǒng)400包括分析濾波器組402、功率估計(jì)器404、信號(hào)估計(jì)器406、后置按比例擴(kuò)縮模塊408、信號(hào)合成模塊410以及合成濾波器組412。雖然系統(tǒng)400的組件402-412示為單獨(dú)的過程，但是兩個(gè)或多個(gè)組件的過程可組合到單個(gè)組件中。
對(duì)于每個(gè)時(shí)間k，多聲道信號(hào)通過分析濾波器組402成為子頻帶信號(hào)i。在所示示例中，立體聲信號(hào)的左和右聲道;c,(w)、 &( )被分析濾波器組402被分解成i子頻帶X,(/," 、 X2(/，"。功率估計(jì)器404生成先前已參考圖1禾n 2描述的A、 2以及A的功率估計(jì)。信號(hào)估計(jì)器406從功率估計(jì)生成估計(jì)信號(hào)S、 A、以及A。后置按比例擴(kuò)縮模塊408按比例擴(kuò)縮信號(hào)估計(jì)以提供》、A以及A 。信號(hào)合成模塊410接收后置按比例擴(kuò)縮信號(hào)估計(jì)以及分解增益因數(shù)A、常數(shù)W和所需對(duì)話增益&，并且合成輸入到合成濾波器組412的左和右子頻
帶信號(hào)估計(jì)《a"以及《a"以提供具有基于C^修改的對(duì)話增益的左和右時(shí)域
信號(hào);(")和^(")。對(duì)話增強(qiáng)過程
圖5是示例對(duì)話增強(qiáng)過程500的流程圖。在一些實(shí)現(xiàn)中，過程500通過將多聲道音頻信號(hào)分解成頻率子頻帶信號(hào)(502)開始。分解可通過使用各種已知變換的濾波器組來執(zhí)行，這些變換包括但不限于多相濾波器組、正交鏡像濾波器組(QMF)、混合濾波器組、離散傅立葉變換(DFT)、修正離散余弦變換(MDCT)。
使用子頻帶信號(hào)估計(jì)音頻信號(hào)的兩個(gè)或更多個(gè)聲道的第一組功率(504)。使用該第一組功率確定互相關(guān)性(506)。使用第一組功率和互相關(guān)性估計(jì)分解增益因數(shù)(508)。分解增益因數(shù)為聲像中的對(duì)話源提供位置提示。使用第一組功率和互相關(guān)性估計(jì)語音分量信號(hào)和周圍環(huán)境分量信號(hào)的第二組功率
(510)。使用第二組功率和分解增益因數(shù)估計(jì)語音和周圍環(huán)境分量信號(hào)(512)。估計(jì)的語音和周圍環(huán)境分量信號(hào)被后置按比例擴(kuò)縮(514)。使用經(jīng)后置按比例擴(kuò)縮的估計(jì)的語音和周圍環(huán)境分量信號(hào)以及所需對(duì)話增益合成具有修改的對(duì)話增益的子頻帶信號(hào)(516)。所需對(duì)話增益可自動(dòng)設(shè)置或由用戶指定。合成的子頻帶信號(hào)使用例如合成濾波器組被變換成具有修改對(duì)話增益的時(shí)域音頻信號(hào)(512)。
用于背景抑制的輸出歸一化
在一些實(shí)現(xiàn)中，期望抑制背景場面的音頻而非增強(qiáng)對(duì)話信號(hào)。這可通過歸一化具有對(duì)話增益的對(duì)話增強(qiáng)輸出信號(hào)實(shí)現(xiàn)。歸一化可按至少兩種不同的方式
執(zhí)行。在一個(gè)示例中，輸出信號(hào)《(/，"和《(/，"可通過歸一化因數(shù)^卿歸一化
另一示例，對(duì)話增強(qiáng)效果通過使用具有g(shù)",的權(quán)重^ -^歸一化來補(bǔ)償。
歸一化因數(shù)g"。^可采用與修改的對(duì)話增益10^相同的值。
為了最大化知覺品質(zhì)，可修改&_。歸一化可既在頻域又在時(shí)域中執(zhí)行。
當(dāng)在頻域中執(zhí)行時(shí)，均一化可針對(duì)施加對(duì)話增益的例如70 Hz與8 KHz之間的頻帶執(zhí)行。
替換地，類似的結(jié)果可實(shí)現(xiàn)為在不將增益施加到s(a)時(shí)衰減^(a)和
iV2(/，"。此概念可使用以下方程式描述
<formula>formula see original document page 12</formula>基于單聲道檢測使用單獨(dú)對(duì)話音量當(dāng)輸入信號(hào)《(/，"和義2(/,?；绢愃茣r(shí)，例如輸入是類似單聲道信號(hào)，則輸入的幾乎每一個(gè)部分可被視為S,并且當(dāng)用戶提供所需對(duì)話增益時(shí)，所需對(duì)話增益增大信號(hào)的音量。為防止這種情況，期望使用單獨(dú)的對(duì)話音量(SDV) 技術(shù)來觀察輸入信號(hào)的特性。
在[4]中，計(jì)算立體聲信號(hào)的歸一化的互相關(guān)性。該歸一化的互相關(guān)性可被用作單聲道信號(hào)檢測的度量。當(dāng)[4]中的(P超過給定閾值時(shí)，輸入信號(hào)可被認(rèn) 作單聲道信號(hào)，并且單獨(dú)的對(duì)話音量可被自動(dòng)關(guān)閉。相反，當(dāng)①小于給定閾值時(shí)，輸入信號(hào)可被認(rèn)作立體聲信號(hào)，并且單獨(dú)的對(duì)話音量可被自動(dòng)打開。對(duì)話增益可針對(duì)單獨(dú)的對(duì)話音量用作算法開關(guān)
;(a):i，對(duì)于^〉^闘。，
^ |26J
此外，當(dāng)p在7V,。與77^^。之間時(shí)，;(a)可表示為p的函數(shù)
= /W，g(a)),對(duì)于7V畫。> 0 > 77zW [27] 一個(gè)示例是將針對(duì);(/,W的反比例加權(quán)施加到p為
g(a) = ^—"!^。"。
g(a),對(duì)于 K, > -> 7K_. [28]
7 — ^ W&咖
為了防止；(/,W的突變，時(shí)間平滑技術(shù)可被結(jié)合以獲得數(shù)字電視系統(tǒng)示例
圖6是用于實(shí)現(xiàn)參考圖l-5所述的特征和過程的示例數(shù)字電視系統(tǒng)600的框圖。數(shù)字電視(DTV)是借助于數(shù)字信號(hào)廣播和接收運(yùn)動(dòng)畫面和聲音的電信系統(tǒng)。DTV采用數(shù)字調(diào)制數(shù)據(jù)，其被數(shù)字壓縮且需要通過專門設(shè)計(jì)的電視機(jī) 或帶有機(jī)頂盒的標(biāo)準(zhǔn)接收機(jī)或裝有電視卡的PC來解碼。盡管圖6中的系統(tǒng)是 DTV系統(tǒng)，但用于對(duì)話增強(qiáng)的所公開實(shí)現(xiàn)也可應(yīng)用于模擬TV系統(tǒng)或任何能夠對(duì)話增強(qiáng)的其他系統(tǒng)。
在某些實(shí)現(xiàn)中，系統(tǒng)600可包括接口 602、解調(diào)器604、解碼器606和音頻/視頻輸出608、用戶輸入接口610、一個(gè)或多個(gè)處理器612 (例如，Intel⑧處理器)和一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)614 (例如，RAM、 ROM、 SDRAM、硬盤、光盤、閃存、SAN等)。這些組件各自耦合到一個(gè)或多個(gè)通信信道616 (例如，總線)。在某些實(shí)現(xiàn)中，接口 602包括用于獲取音頻信號(hào)或組合的音頻/視頻信號(hào)的各種電路。例如，在模擬電視系統(tǒng)中，接口可包括天線電子設(shè)備、調(diào)諧器或混頻器、射頻(RF)放大器、本機(jī)振蕩器、中頻(IF)放大器、一個(gè)
或多個(gè)濾波器、解調(diào)器、音頻放大器等。系統(tǒng)600的其他實(shí)現(xiàn)是可能的，包括
帶有更多或更小組件的實(shí)現(xiàn)。
調(diào)諧器602可以是用于接收包括視頻和音頻內(nèi)容的數(shù)字電視信號(hào)的DTV 調(diào)諧器。解調(diào)器604從數(shù)字電視信號(hào)中提取視頻和音頻信號(hào)。如果視頻和音頻信號(hào)被編碼(例如，MPEG編碼)，則解碼器606解碼這些信號(hào)。A/V輸出可以是能夠顯示視頻和播放音頻的任何設(shè)備(例如，TV顯示器、計(jì)算機(jī)監(jiān)視器、 LCD、揚(yáng)聲器、音頻系統(tǒng))。
在一些實(shí)現(xiàn)中，可例如使用遙控器上的顯示設(shè)備或者在屏幕上的顯示 (OSD)向用戶顯示對(duì)話音量級(jí)。對(duì)話音量級(jí)可相對(duì)于主音量級(jí)。一個(gè)或多個(gè) 圖形對(duì)象可用來顯示對(duì)話音量級(jí)、以及相對(duì)于主音量的對(duì)話音量級(jí)。例如，第一圖形對(duì)象(例如，條)可顯示用來指示主音量，且第二圖形對(duì)象(例如，線) 可與第一圖形對(duì)象一起顯示或組合在第一圖形對(duì)象上以指示對(duì)話音量級(jí)。
在一些實(shí)現(xiàn)中，用戶輸入接口可包括用于接收并解碼由遙控器生成的紅外或無線信號(hào)的電路(例如，無線或紅外接收器)和/或軟件。遙控器可包括單獨(dú) 的對(duì)話音量控制鍵或按鈕、或者用于改變主音量控制鍵或按鈕的狀態(tài)的單獨(dú)的對(duì)話音量控制選擇鍵，以使主音量控件可被用來控制主音量或單獨(dú)的對(duì)話音量。在一些實(shí)現(xiàn)中，對(duì)話音量或主音量鍵可改變其可視外觀以指示其功能。
示例控制器和用戶接口在美國專利申請(qǐng)No._、題為"Controller and
User Interface For Dialogue Enhancement Techniques"(用于對(duì)話增強(qiáng)技術(shù)的控制器和用戶接口) 、 2007年9月14日提交的、律師案號(hào)為No. 19819- 160001 中描述，該專利申請(qǐng)通過引用完整結(jié)合于此。
在一些實(shí)現(xiàn)中，一個(gè)或多個(gè)處理器可執(zhí)行存儲(chǔ)于計(jì)算機(jī)可讀介質(zhì)614中的代碼，以實(shí)現(xiàn)如參照?qǐng)D1-5所描述的特征和操作618、 620、 622、 624、 626、 628、 630和632。
計(jì)算機(jī)可讀介質(zhì)還包括操作系統(tǒng)618、分析/合成濾波器組620、功率估計(jì) 器622、信號(hào)估計(jì)器624、后置按比例擴(kuò)縮模塊626以及信號(hào)合成器628。術(shù)語 "計(jì)算機(jī)可讀介質(zhì)"表示參與向處理器612提供指令以供執(zhí)行的任何介質(zhì)，包括但不限于非易失性介質(zhì)(例如光盤或磁盤)、易失性介質(zhì)(例如存儲(chǔ)器)和傳輸介質(zhì)。傳輸介質(zhì)包括但不限于，同軸電纜、銅線和光纖。傳輸介質(zhì)也以聲、光或射頻電波的形式出現(xiàn)。
操作系統(tǒng)618可以是多用戶、多處理、多任務(wù)、多線程、實(shí)時(shí)等。操作系統(tǒng)618執(zhí)行基本任務(wù)，包括但不限于識(shí)別來自用戶輸入接口 610的輸入；保持跟蹤并管理計(jì)算機(jī)可讀介質(zhì)614 (例如存儲(chǔ)器或存儲(chǔ)設(shè)備)上的文件和目錄; 控制外圍設(shè)備；以及管理一個(gè)或多個(gè)通信信道616上的通信量。
上述特征可有利地實(shí)現(xiàn)為可在可編程系統(tǒng)上執(zhí)行的一個(gè)或多個(gè)計(jì)算機(jī)程序，該可編程系統(tǒng)包括至少一個(gè)可編程處理器，其被耦合以從數(shù)據(jù)存儲(chǔ)系統(tǒng) 接收數(shù)據(jù)和指令，并將數(shù)據(jù)和指令發(fā)送到數(shù)據(jù)存儲(chǔ)系統(tǒng)；至少一個(gè)輸入設(shè)備；以及至少一個(gè)輸出設(shè)備。計(jì)算機(jī)程序是一組指令，該組指令可在計(jì)算機(jī)中直接或間接地使用以執(zhí)行一定的活動(dòng)或產(chǎn)生一定的結(jié)果。計(jì)算機(jī)程序能夠以包括編譯或解釋語言的任何形式的編程語言(例如，Objective-C(面向?qū)ο蟮腃語言)、 Java)來編寫，且它能夠以任何形式使用，包括作為獨(dú)立程序或作為模塊、組件、子例程或適合在計(jì)算環(huán)境中使用的其他單元。
用于執(zhí)行指令程序的適當(dāng)處理器包括作為示例的通用和專用微處理器和任何類型的計(jì)算機(jī)的單處理器或多處理器或多核之一。一般而言，處理器將從只讀存儲(chǔ)器或隨機(jī)存取存儲(chǔ)器或兩者接收指令和數(shù)據(jù)。計(jì)算機(jī)的基本元件是用于執(zhí)行指令的處理器和用于存儲(chǔ)指令和數(shù)據(jù)的一個(gè)或多個(gè)存儲(chǔ)器。一般而言，計(jì)算機(jī)還包括用于存儲(chǔ)數(shù)據(jù)文件的一個(gè)或多個(gè)大容量存儲(chǔ)設(shè)備，或有效地耦合以與這些設(shè)備通信；這種設(shè)備包括諸如內(nèi)部磁盤和可移動(dòng)盤的磁盤；磁光盤；以及光盤。適用于有形地表達(dá)計(jì)算機(jī)程序指令和數(shù)據(jù)的存儲(chǔ)設(shè)備包括所有形式的非易失性存儲(chǔ)器，包括作為示例的諸如EPROM、 EEPROM和閃存設(shè)備的半導(dǎo)體存儲(chǔ)設(shè)備；諸如內(nèi)部硬盤和可移動(dòng)盤的磁盤；磁光盤；以及CD-ROM和 DVD-ROM盤。處理器和存儲(chǔ)器可由ASIC(專用集成電路)補(bǔ)充或結(jié)合到ASIC 中。
為了提供與用戶的交互，可在具有諸如用于向用戶顯示信息的CRT (陰極射線管)或LCD (液晶顯示器)監(jiān)視器之類的顯示設(shè)備與用戶可通過它向計(jì) 算機(jī)提供輸入的諸如鼠標(biāo)或跟蹤球的鍵盤和定位設(shè)備的計(jì)算機(jī)上實(shí)現(xiàn)特征?？稍诎ㄖT如數(shù)據(jù)服務(wù)器的后端組件的計(jì)算機(jī)系統(tǒng)中，或在包括諸如應(yīng)用服務(wù)器或因特網(wǎng)服務(wù)器的中間件組件的計(jì)算機(jī)系統(tǒng)中，或在包括諸如具有圖形用戶界面或因特網(wǎng)瀏覽器的客戶計(jì)算機(jī)的前端組件的計(jì)算機(jī)系統(tǒng)中，或其組合中，實(shí)現(xiàn)這些特征。系統(tǒng)的組件可通過諸如通信網(wǎng)絡(luò)的任何形式或介質(zhì)的數(shù)字
數(shù)據(jù)通信來連接。通信網(wǎng)絡(luò)的示例包括例如LAN、 WAN和構(gòu)成因特網(wǎng)的計(jì)算
機(jī)和網(wǎng)絡(luò)。
計(jì)算機(jī)系統(tǒng)可包括客戶機(jī)和服務(wù)器。客戶機(jī)和服務(wù)器一般相距甚遠(yuǎn)且通常通過網(wǎng)絡(luò)交互?？蛻魴C(jī)和服務(wù)器的關(guān)系根據(jù)在相應(yīng)計(jì)算機(jī)上運(yùn)行的且彼此具有客戶機(jī)一服務(wù)器關(guān)系的計(jì)算機(jī)程序來產(chǎn)生。
已經(jīng)描述多個(gè)實(shí)現(xiàn)。然而，將理解可進(jìn)行各種修改。例如，可組合、刪除、修改或補(bǔ)充一個(gè)或多個(gè)實(shí)現(xiàn)的要素以形成進(jìn)一步的實(shí)現(xiàn)。作為又一個(gè)示例，在附圖中描述的邏輯流程并非必需所示的特定順序或連續(xù)順序來實(shí)現(xiàn)所要求的結(jié)果。此外，可提供其他步驟，或可從所述流程中去除步驟，并將其他組件添加到所述系統(tǒng)，或從所述系統(tǒng)去除其它組件。因此，其他實(shí)現(xiàn)在以下權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.一種方法，包括獲得包括語音分量信號(hào)和其他分量信號(hào)的多聲道音頻信號(hào)；以及基于所述音頻信號(hào)的聲像中的所述語音分量信號(hào)的位置修改所述語音分量信號(hào)。
2. 如權(quán)利要求1所述的方法，其特征在于，修改還包括基于所述語音分量信號(hào)的頻譜內(nèi)容修改所述語音分量信號(hào)。
3. 如權(quán)利要求1或2所述的方法，其特征在于，所述修改還包括確定所述聲像中的所述語音分量信號(hào)的位置；以及將增益因數(shù)施加到所述語音分量信號(hào)。
4. 如權(quán)利要求3所述的方法，其特征在于，所述增益因數(shù)是所述語音分量信號(hào)的所述位置以及用于所述語音分量信號(hào)的所需增益的函數(shù)。
5. 如權(quán)利要求4所述的方法，其特征在于，所述函數(shù)是具有與所述增益因數(shù)的方向敏感性有關(guān)的增益區(qū)的信號(hào)自適應(yīng)增益函數(shù)。
6. 如上述權(quán)利要求中任一項(xiàng)所述的方法，其特征在于，所述修改還包括在時(shí)域或頻域中使用歸一化因數(shù)歸一化所述多聲道音頻信號(hào)。
7. 如上述權(quán)利要求中任一項(xiàng)所述的方法，其特征在于，還包括確定所述音頻信號(hào)實(shí)質(zhì)上是否是單聲道的；以及如果所述音頻信號(hào)實(shí)質(zhì)上不是單聲道的，則自動(dòng)修改所述語音分量信號(hào)。
8. 如權(quán)利要求7所述的方法，其特征在于，確定所述音頻信號(hào)實(shí)質(zhì)上是否是單聲道的還包括確定所述音頻信號(hào)的兩個(gè)或更多個(gè)聲道之間的互相關(guān)性；以及將所述互相關(guān)性與一個(gè)或多個(gè)閾值相比較；以及基于所述比較的結(jié)果確定所述音頻信號(hào)實(shí)質(zhì)上是否是單聲道。
9. 如上述權(quán)利要求中任一項(xiàng)所述的方法，其特征在于，修改還包括將所述音頻信號(hào)分解成多個(gè)頻率子頻帶信號(hào)；使用所述子頻帶信號(hào)估計(jì)所述多聲道音頻信號(hào)的兩個(gè)或更多個(gè)聲道的第一組功率；使用所述第一組估計(jì)的功率確定互相關(guān)性；使用所述第一組估計(jì)的功率和互相關(guān)性估計(jì)分解增益因數(shù)。
10. 如權(quán)利要求9所述的方法，其特征在于，至少一個(gè)子頻帶的帶寬被選擇成與人類聽覺系統(tǒng)的一個(gè)關(guān)鍵頻帶相等。
11. 如權(quán)利要求8所述的方法，其特征在于，包括從所述第一組功率和所述互相關(guān)性估計(jì)所述語音分量信號(hào)和周圍環(huán)境分量信號(hào)的第二組功率。
12. 如權(quán)利要求ll所述的方法，其特征在于，還包括使用所述第二組功率和所述分解增益因數(shù)估計(jì)所述語音分量信號(hào)和所述周圍環(huán)境分量信號(hào)。
13. 如權(quán)利要求12所述的方法，其特征在于，使用最小二乘估計(jì)確定所估計(jì)的語音和周圍環(huán)境分量信號(hào)。
14. 如權(quán)利要求12所述的方法，其特征在于，所述互相關(guān)性被歸一化。
15. 如權(quán)利要求13或14所述的方法，其特征在于，所估計(jì)的語音分量信號(hào)和所估計(jì)的周圍環(huán)境分量信號(hào)被后置按比例擴(kuò)縮。
16. 如權(quán)利要求11至15中任一項(xiàng)所述的方法，其特征在于，還包括使用所估計(jì)的第二功率和用戶指定增益合成子頻帶信號(hào)。
17. 如權(quán)利要求16所述的方法，其特征在于，還包括將所合成的子頻帶信號(hào)變換成具有用所述用戶指定的增益修改的語音分量信號(hào)的時(shí)域音頻信號(hào)。
18. —種方法，包括獲得音頻信號(hào)；獲得指定所述音頻信號(hào)的第一分量信號(hào)的修改的用戶輸入；以及基于所述輸入和所述音頻信號(hào)的聲像中的所述第一分量信號(hào)的位置提示修改所述第一分量信號(hào)。
19. 如權(quán)利要求18所述的方法，其特征在于，所述修改還包括將增益因數(shù)施加到所述第一分量信號(hào)。
20. 如權(quán)利要求19所述的方法，其特征在于，所述增益因數(shù)是所述第一分量信號(hào)的所述位置提示和所需增益的函數(shù)。
21. 如權(quán)利要求20所述的方法，其特征在于，所述函數(shù)具有與所述增益因數(shù)的方向敏感性有關(guān)的增益區(qū)。
22. 如權(quán)利要求18至21中任一項(xiàng)所述的方法，其特征在于，所述修改還包括在時(shí)域或頻域中使用歸一化因數(shù)歸一化所述音頻信號(hào)。
23. 如權(quán)利要求18至22中任一項(xiàng)所述的方法，其特征在于，所述修改還包括將所述音頻信號(hào)分解成多個(gè)頻率子頻帶信號(hào)；使用所述子頻帶信號(hào)估計(jì)所述音頻信號(hào)的兩個(gè)或多個(gè)聲道的第一組功率；使用所述第一組功率確定互相關(guān)性；使用所述第一組功率和互相關(guān)性估計(jì)分解增益因數(shù)；從所述第一組功率和所述互相關(guān)性估計(jì)所述第一分量信號(hào)和第二分量信號(hào)的第二組功率；使用所述第二組功率和所述分解增益因數(shù)估計(jì)所述第一分量信號(hào)和所述第二分量信號(hào)；使用所估計(jì)的第一和第二分量信號(hào)和所述輸入合成子頻帶信號(hào)；以及將所合成的子頻帶信號(hào)變換成具有修改的第一分量信號(hào)的時(shí)域音頻信號(hào)。
24. —種系統(tǒng)，包括接口，所述接口可配置用于獲得包括語音分量信號(hào)和其他分量信號(hào)的多聲道音頻信號(hào)；以及處理器，所述處理器耦合到所述接口、并且可配置成基于所述音頻信號(hào)的聲像中的所述語音分量信號(hào)的位置修改所述語音分量信號(hào)。
25. —種方法，包括獲得包括語音分量信號(hào)和其他分量信號(hào)的多聲道音頻信號(hào)；以及基于所述多聲道音頻信號(hào)的聲像中的所述語音分量信號(hào)的位置修改所述其他分量信號(hào)。
全文摘要
多聲道音頻信號(hào)(例如立體聲音頻)被處理成相對(duì)于周圍環(huán)境分量信號(hào)(例如反射或混響聲音)或其他分量信號(hào)修改語音分量信號(hào)(例如電影中演員說的對(duì)話)的增益(例如音量或響度)。在一個(gè)方面，語音分量信號(hào)被標(biāo)識(shí)并修改。在一個(gè)方面，語音分量信號(hào)通過假設(shè)語音源(例如演員當(dāng)前說話)在多聲道音頻信號(hào)的立體聲聲像的中心、并且通過考慮語音分量信號(hào)的頻譜內(nèi)容來標(biāo)識(shí)。
文檔編號(hào)G10L19/00GK101518100SQ200780034351
公開日2009年8月26日申請(qǐng)日期2007年9月14日優(yōu)先權(quán)日2006年9月14日
發(fā)明者C·法勒, 吳賢午, 鄭亮源申請(qǐng)人:Lg電子株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳賢午;鄭亮源;C·法勒
技術(shù)所有人：LG電子株式會(huì)社
我是此專利的發(fā)明人

上一篇：基于分組的回音取消和抑制的制作方法
上一篇：計(jì)算音樂速度估計(jì)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

增強(qiáng)現(xiàn)實(shí)技術(shù)相關(guān)技術(shù)

圖像增強(qiáng)技術(shù)相關(guān)技術(shù)

增強(qiáng)現(xiàn)實(shí)技術(shù)的應(yīng)用相關(guān)技術(shù)

ar增強(qiáng)現(xiàn)實(shí)技術(shù)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

對(duì)話增強(qiáng)技術(shù)的制作方法