多通道音頻中語(yǔ)音相關(guān)通道的縮放回避的方法和系統(tǒng)的制作方法
【專利說(shuō)明】
[0001] 本申請(qǐng)是申請(qǐng)日為2011年2月28日、申請(qǐng)?zhí)枮?01180012782. 5發(fā)明名稱為"多 通道音頻中語(yǔ)音相關(guān)通道的縮放回避的方法和系統(tǒng)"的發(fā)明專利申請(qǐng)的分案申請(qǐng)。
[0002] 相關(guān)申請(qǐng)的交叉引用
[0003] 本申請(qǐng)要求2010年3月8日提交的美國(guó)專利臨時(shí)申請(qǐng)No. 61/311,437的優(yōu)先權(quán), 其整體通過(guò)引用合并于此。
技術(shù)領(lǐng)域
[0004] 本發(fā)明設(shè)及用于改善由多通道音頻信號(hào)確定的人類(lèi)語(yǔ)音(例如對(duì)話)的可辨識(shí)度 的系統(tǒng)和方法。在一些實(shí)施例中,本發(fā)明是一種方法和系統(tǒng),其通過(guò)確定指示由語(yǔ)音通道確 定的語(yǔ)音相關(guān)內(nèi)容與由非語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容之間的相似程度的至少一個(gè)衰減 控制值,并響應(yīng)于該衰減控制值對(duì)該非語(yǔ)音通道進(jìn)行衰減,來(lái)對(duì)具有語(yǔ)音通道和非語(yǔ)音通 道的音頻信號(hào)進(jìn)行濾波W改善由信號(hào)確定的語(yǔ)音可辨識(shí)度。
【背景技術(shù)】
[0005] 貫穿本公開(kāi),包括在權(quán)利要求書(shū)中,術(shù)語(yǔ)"語(yǔ)音"用于廣義上指示人類(lèi)語(yǔ)音。因此, 由音頻信號(hào)確定的"語(yǔ)音"是指信號(hào)中在由揚(yáng)聲器(或其他發(fā)聲換能器)再現(xiàn)信號(hào)時(shí)感知 為人類(lèi)語(yǔ)音(例如對(duì)話、獨(dú)白、歌聲或其他人類(lèi)語(yǔ)音)的音頻內(nèi)容。根據(jù)本發(fā)明的典型實(shí)施 例,由音頻信號(hào)確定的語(yǔ)音的可聽(tīng)度相對(duì)于由信號(hào)確定的其他音頻內(nèi)容(例如樂(lè)器音樂(lè)或 非語(yǔ)音聲音效果)得到改善,由此改善語(yǔ)音的可辨識(shí)度(例如,清楚性或理解容易度)。
[0006] 貫穿本公開(kāi),包括在權(quán)利要求書(shū)中,多通道音頻信號(hào)中的一通道的"語(yǔ)音增強(qiáng)內(nèi) 容"該一表述是指增強(qiáng)由信號(hào)的另一通道(例如語(yǔ)音通道)確定的語(yǔ)音內(nèi)容的可辨識(shí)度或 其他感知品質(zhì)的內(nèi)容(由該通道確定)。
[0007] 本發(fā)明的典型實(shí)施例假定多通道輸入音頻信號(hào)確定的語(yǔ)音的大部分由信號(hào)的中 央通道確定。該假定與環(huán)繞聲音產(chǎn)品慣例一致,根據(jù)該慣例,大部分語(yǔ)音通常置于僅一個(gè)通 道(中央通道)中,大部分音樂(lè)、環(huán)境聲音和音效通常混合到所有通道中(例如左通道、右 通道、左環(huán)繞通道和右環(huán)繞通道W及中央通道)。
[000引因此,多通道音頻信號(hào)的中央通道將有時(shí)在該里稱為"語(yǔ)音"通道,信號(hào)的全部其 它通道(例如左通道、右通道、左環(huán)繞通道和右環(huán)繞通道)有時(shí)在該里稱為"非語(yǔ)音"通道。 類(lèi)似地,由立體聲信號(hào)的左和右通道之和產(chǎn)生的"中央"通道(其語(yǔ)音被移位到中央)有時(shí) 在該里稱為"語(yǔ)音"通道,通過(guò)從立體信號(hào)的左(或右)通道減去該樣的中央通道而產(chǎn)生的 "側(cè)"通道將有時(shí)在該里稱為"非語(yǔ)音"通道。
[0009] 貫穿本公開(kāi),包括在權(quán)利要求書(shū)中,"對(duì)"信號(hào)或數(shù)據(jù)進(jìn)行操作的表述(例如對(duì)信號(hào) 或數(shù)據(jù)進(jìn)行濾波、縮放或變換)用于廣義上指示直接對(duì)信號(hào)或數(shù)據(jù)進(jìn)行操作,或者對(duì)信號(hào) 或數(shù)據(jù)的處理變體(例如,在對(duì)其執(zhí)行操作之前已經(jīng)經(jīng)歷了初步濾波的信號(hào)變體)執(zhí)行操 作。
[0010] 貫穿本公開(kāi),包括在權(quán)利要求書(shū)中,表述"系統(tǒng)"用于廣義上指示器件、系統(tǒng)或子系 統(tǒng)。例如,實(shí)現(xiàn)解碼器的子系統(tǒng)可w稱為解碼器系統(tǒng),包括該樣的子系統(tǒng)的系統(tǒng)(例如,響 應(yīng)于多個(gè)輸入產(chǎn)生X個(gè)輸出信號(hào)的系統(tǒng),其中該子系統(tǒng)產(chǎn)生M個(gè)輸入,其它X-M個(gè)輸入從外 部源接收)也可W稱為解碼器系統(tǒng)。
[0011] 貫穿本公開(kāi),包括在權(quán)利要求書(shū)中,第一值("A")對(duì)第二值("B")的"比"該一 表述廣義上用于表示A/B、或B/A、或A和B之一的縮放或偏移變體對(duì)A和B中的另一個(gè)的 縮放或偏移變體的比(例如(A+X) /炬+y),其中X和y表示偏移值)。
[0012] 貫穿本公開(kāi),包括在權(quán)利要求書(shū)中,信號(hào)通過(guò)發(fā)聲換能器(例如揚(yáng)聲器)的"再現(xiàn)" 該一表述表示使換能器響應(yīng)于信號(hào)產(chǎn)生聲音,包括通過(guò)進(jìn)行任何所需的放大和/或其它信 號(hào)處理。
[0013] 當(dāng)在存在競(jìng)爭(zhēng)聲音的情況下聽(tīng)語(yǔ)音時(shí)(諸如在餐館中克服人群噪聲傾聽(tīng)朋友說(shuō) 話),指示語(yǔ)音的音素內(nèi)容的部分聲學(xué)特征(語(yǔ)音提示(speechcue))被競(jìng)爭(zhēng)聲音所掩蓋且 不再可用于傾聽(tīng)者來(lái)解碼訊息。隨著競(jìng)爭(zhēng)聲音的水平相對(duì)于語(yǔ)音水平升高,正確接收的語(yǔ) 音提示的數(shù)量降低且語(yǔ)音感知逐漸變得更難,直到在某競(jìng)爭(zhēng)聲音水平下,語(yǔ)音感知過(guò)程中 斷。雖然該種關(guān)系對(duì)于所有傾聽(tīng)者有效,但是對(duì)于任意語(yǔ)音水平而言能容忍的競(jìng)爭(zhēng)聲音水 平對(duì)于所有傾聽(tīng)者并不相同。有些傾聽(tīng)者,例如由于年老而損失聽(tīng)力者(老年聾)或傾聽(tīng)青 春期之后學(xué)會(huì)的語(yǔ)言者,與具有良好聽(tīng)力或運(yùn)用母語(yǔ)的傾聽(tīng)者相比,更不能容忍競(jìng)爭(zhēng)聲音。
[0014] 存在競(jìng)爭(zhēng)聲音時(shí)傾聽(tīng)者理解語(yǔ)音的能力不同的事實(shí)暗示了新聞或娛樂(lè)音頻中環(huán) 境聲音和背景音樂(lè)與語(yǔ)音混合的水平。損失聽(tīng)力或運(yùn)用外語(yǔ)的傾聽(tīng)者通常喜歡與內(nèi)容產(chǎn)生 者所提供的相比相對(duì)更低水平的非語(yǔ)音音頻。
[0015] 為了迎合該些特殊需要,已知對(duì)多通道音頻信號(hào)的非語(yǔ)音通道應(yīng)用衰減(回避), 而更?。ɑ驔](méi)有)衰減應(yīng)用到信號(hào)的語(yǔ)音通道,W改善信號(hào)所確定的語(yǔ)音的可辨識(shí)度。
[0016] 例如,PCT國(guó)際申請(qǐng)公開(kāi)NO.W02010/011377,發(fā)明人為HannesMuesch且轉(zhuǎn)讓給 Do化yL油oratoriesLicensingCo;rporation(2010年 1 月 28 日公開(kāi)),公開(kāi)了多通道音頻 信號(hào)的非語(yǔ)音通道(例如,左通道和右通道)可W掩蓋信號(hào)的語(yǔ)音通道(例如,中央通道) 中的語(yǔ)音到不再滿足期望水平的語(yǔ)音可辨識(shí)度的程度。W02010/011377描述了如何確定由 回避電路應(yīng)用到非語(yǔ)音通道的衰減函數(shù)W嘗試顯露語(yǔ)音通道中的語(yǔ)音,同時(shí)盡可能多地感 知內(nèi)容創(chuàng)建者的意圖。W02010/011377中描述的技術(shù)基于如下假設(shè);非語(yǔ)音通道中的內(nèi)容 從不增強(qiáng)語(yǔ)音通道確定的語(yǔ)音內(nèi)容的可辨識(shí)度(或者其它感知品質(zhì))。
[0017] 本發(fā)明部分地基于如下認(rèn)識(shí),即雖然該假設(shè)對(duì)于絕大多數(shù)多通道音頻內(nèi)容而言是 正確的,但是并非總是有效。發(fā)明人意識(shí)到,當(dāng)多通道音頻信號(hào)中的至少一個(gè)非語(yǔ)音通道 包括增強(qiáng)信號(hào)的語(yǔ)音通道確定的語(yǔ)音內(nèi)容的可辨識(shí)度(或其它感知品質(zhì))的內(nèi)容時(shí),根據(jù) W02010/011377的方法對(duì)信號(hào)的濾波可能負(fù)面影響傾聽(tīng)再現(xiàn)的濾波了的信號(hào)的聽(tīng)眾的娛 樂(lè)體驗(yàn)。根據(jù)本發(fā)明的典型實(shí)施例,在內(nèi)容不符合W02010/011377的方法蘊(yùn)含的假設(shè)時(shí), W02010/011377描述的方法的應(yīng)用被暫?;虮恍薷摹?br>[0018] 需要一種方法和系統(tǒng),用于在音頻信號(hào)的至少一個(gè)非語(yǔ)音通道包括增強(qiáng)音頻信號(hào) 的語(yǔ)音通道中的語(yǔ)音內(nèi)容的可辨識(shí)度的內(nèi)容的一般情況下,對(duì)多通道音頻信號(hào)進(jìn)行濾波W 改善語(yǔ)音可辨識(shí)度。
【發(fā)明內(nèi)容】
[0019] 在第一類(lèi)實(shí)施例中,本發(fā)明是一種方法,用于對(duì)具有語(yǔ)音通道和至少一個(gè)非語(yǔ)音 通道的多通道音頻信號(hào)進(jìn)行濾波,W改善信號(hào)所確定的語(yǔ)音的可辨識(shí)度。該方法包括步驟: (a)確定指示多通道語(yǔ)音信號(hào)的語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容與至少一個(gè)非語(yǔ)音通道確定 的語(yǔ)音相關(guān)內(nèi)容之間的相似程度的至少一個(gè)衰減控制值;W及化)響應(yīng)于該至少一個(gè)衰減 控制值,對(duì)該多通道音頻信號(hào)的至少一個(gè)非語(yǔ)音通道進(jìn)行衰減。典型地,該衰減步驟包括響 應(yīng)于該至少一個(gè)衰減控制值,縮放用于該非語(yǔ)音通道的原始衰減控制信號(hào)(例如回避增益 控制信號(hào))。優(yōu)選地,該非語(yǔ)音通道被衰減從而改善由語(yǔ)音通道確定的語(yǔ)音的可辨識(shí)度,而 沒(méi)有不期望地衰減由該非語(yǔ)音通道確定的語(yǔ)音增強(qiáng)內(nèi)容。在一些實(shí)施例中,步驟(a)確定 的每個(gè)衰減控制值指示由音頻信號(hào)的語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容與一個(gè)非語(yǔ)音通道確 定的語(yǔ)音相關(guān)內(nèi)容之間的相似程度,步驟化)包括響應(yīng)于所述每個(gè)衰減控制值對(duì)該非語(yǔ)音 通道進(jìn)行衰減的步驟。在另一些實(shí)施例中,步驟(a)包括從音頻信號(hào)的至少一個(gè)非語(yǔ)音通 道得到衍生非語(yǔ)音通道的步驟,該至少一個(gè)衰減控制值指示由該語(yǔ)音通道確定的語(yǔ)音相關(guān) 內(nèi)容與由該衍生非語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容之間的相似程度。例如,該衍生非語(yǔ)音通 道可W通過(guò)疊加或W另外的方式混合或組合音頻信號(hào)的至少兩個(gè)非語(yǔ)音通道而產(chǎn)生。相對(duì) 于從不同非語(yǔ)音通道確定一組衰減值的不同子集的成本和復(fù)雜度而言,從單個(gè)衍生非語(yǔ)音 通道確定每個(gè)衰減控制值可W減小實(shí)施本發(fā)明某些實(shí)施例的成本和復(fù)雜度。在其中輸入音 頻信號(hào)具有至少兩個(gè)非語(yǔ)音通道的實(shí)施例中,步驟化)可W包括響應(yīng)于該至少一個(gè)衰減控 制值(例如,響應(yīng)于衰減控制值的單個(gè)序列),對(duì)非語(yǔ)音通道(例如,從其已經(jīng)衍生出衍生非 語(yǔ)音通道的每個(gè)非語(yǔ)音通道)的子集或者所有非語(yǔ)音通道進(jìn)行衰減的步驟。
[0020] 在一些第一類(lèi)實(shí)施例中,步驟(a)包括產(chǎn)生指示衰減控制值的序列的衰減控制信 號(hào)的步驟,每個(gè)衰減控制值指示由語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容與由至少一個(gè)非語(yǔ)音通道 確定的語(yǔ)音相關(guān)內(nèi)容之間在不同時(shí)間(例如,在不同時(shí)間段中)的相似程度,步驟化)包括 如下步驟;響應(yīng)于該衰減控制信號(hào)縮放回避增益控制信號(hào)W產(chǎn)生縮放了的增益控制信號(hào), W及應(yīng)用該縮放了的增益控制信號(hào)W對(duì)該至少一個(gè)非語(yǔ)音通道進(jìn)行衰減(例如,將該縮放 了的增益控制信號(hào)斷言到回避電路從而通過(guò)該回避電路來(lái)控制該至少一個(gè)非語(yǔ)音通道的 衰減)。例如,在一些該樣的實(shí)施例中,步驟(a)包括比較第一語(yǔ)音相關(guān)特征序列(指示由 該語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容)與第二語(yǔ)音相關(guān)特征序列(指示由該至少一個(gè)非語(yǔ)音通 道確定的語(yǔ)音相關(guān)內(nèi)容)W產(chǎn)生該衰減控制信號(hào),由該衰減控制信號(hào)指示的每個(gè)衰減控制 值指示該第一語(yǔ)音相關(guān)特征序列和該第二語(yǔ)音相關(guān)特征序列之間在不同時(shí)間(例如,在不 同時(shí)間段中)的相似程度。在一些實(shí)施例中,每個(gè)衰減控制值是增益控制值。
[0021] 在一些第一類(lèi)實(shí)施例中,每個(gè)衰減控制值與音頻信號(hào)的至少一個(gè)非語(yǔ)音通道指示 增強(qiáng)由語(yǔ)音通道確定的語(yǔ)音內(nèi)容的可辨識(shí)度(或者另一感知品質(zhì))的語(yǔ)音增強(qiáng)內(nèi)容的可 能性單調(diào)相關(guān)。在另一些第一類(lèi)實(shí)施例中,每個(gè)衰減控制值被單調(diào)關(guān)聯(lián)到至少一個(gè)非語(yǔ)音 通道的預(yù)期語(yǔ)音增強(qiáng)值(例如,至少一個(gè)非語(yǔ)音通道指示語(yǔ)音增強(qiáng)內(nèi)容的或然率的度量, 乘W由至少一個(gè)非語(yǔ)音通道確定的語(yǔ)音增強(qiáng)內(nèi)容將對(duì)由多通道信號(hào)確定的語(yǔ)音內(nèi)容提供 的感知品質(zhì)增強(qiáng)的度量)。例如,當(dāng)步驟(a)包括比較指示由語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi) 容的第一語(yǔ)音相關(guān)特征序列和指示由至少一個(gè)非語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容的第二語(yǔ) 音相關(guān)特征序列的步驟時(shí),第一語(yǔ)音相關(guān)特征序列可W是語(yǔ)音可能性值的序列,每個(gè)該語(yǔ) 音可能性值表明在不同時(shí)間(例如,在不同時(shí)間段中)語(yǔ)音通道指示語(yǔ)音(而不是語(yǔ)音之 外的音頻內(nèi)容)的可能性,第二語(yǔ)音相關(guān)特征序列也可w是語(yǔ)音可能性值的序列,每個(gè)該 語(yǔ)音可能性值表明在不同時(shí)間(例如,在不同時(shí)間段中)至少一個(gè)非語(yǔ)音通道指示語(yǔ)音的 可能性。從音頻信號(hào)自動(dòng)生成該種語(yǔ)音可能性值的序列的各種方法是已知的。例如,一 種該樣的方法由Robinson和Vinton描述于"AutomatedSpeech/OtherDiscrimination forLoudnessMonitoring"(AudioEngineeringSociety,Preprintnumber6437of Conventionll8,2005年5月)中。備選地,預(yù)期語(yǔ)音可能性值的序列可W手工創(chuàng)建(例如, 通過(guò)內(nèi)容創(chuàng)建器)且與多通道音頻信號(hào)一起傳輸?shù)浇K端用戶。
[0022] 在其中多通道音頻信號(hào)具有語(yǔ)音通道W及包括第一非語(yǔ)音通道和第二非語(yǔ)音通 道的至少兩個(gè)非語(yǔ)音通道的第二類(lèi)實(shí)施例中,本發(fā)明的方法包括步驟;(a)確定至少一個(gè) 第一衰減控制值,該至少一個(gè)第一衰減控制值指示由該語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容與由 該第一非語(yǔ)音通道確定的第二語(yǔ)音相關(guān)內(nèi)容之間的相似程度(例如,包括通過(guò)比較指示由 該語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容的第一語(yǔ)音相關(guān)特征序列和指示該第二語(yǔ)音相關(guān)內(nèi)容的 第二語(yǔ)音相關(guān)特征序列);W及化)確定至少一個(gè)第二衰減控制值,該至少一個(gè)第二衰減控 制值指示由該語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容與由該第二非語(yǔ)音通道確定的第=語(yǔ)音相關(guān) 內(nèi)容之間的相似程度(例如,包括通過(guò)比較指示由該語(yǔ)音通道確定的語(yǔ)音相關(guān)內(nèi)容的第= 語(yǔ)音相關(guān)特征序列和指示該第=語(yǔ)音相關(guān)內(nèi)容的第四語(yǔ)音相關(guān)特征序列,其中該第=語(yǔ)音 相關(guān)特征序列可W與步驟(a)的第一語(yǔ)音相關(guān)特征序列相同)。典型地,該方法包括響應(yīng)于 該至少一個(gè)第一衰減控制值對(duì)該第一非語(yǔ)音通道進(jìn)行衰減(例如,縮放該第一非語(yǔ)音通道 的衰減)和響應(yīng)于該至少一個(gè)第二衰減控制值對(duì)該第二非語(yǔ)音通道進(jìn)行衰減(例如,縮放 該第二非語(yǔ)音通道的衰減)的步驟。優(yōu)選地,每個(gè)非語(yǔ)音通道都被衰減從而改善由語(yǔ)音通 道確定的語(yǔ)音的可辨識(shí)度,而沒(méi)有不期望地對(duì)任一非語(yǔ)音通道確定的語(yǔ)音增強(qiáng)內(nèi)容進(jìn)行衰 減。
[0023] 在一些第二類(lèi)實(shí)施例中;
[0024] 在步驟(a)中確定的該至少一個(gè)第一衰減控制值是衰減控制值的序列,每個(gè)衰減 控制值是用于縮放增益量的增益控制值,該增益量通過(guò)回避電路施加到第一非語(yǔ)音通道W 改善由語(yǔ)音通道確定的語(yǔ)音的可辨識(shí)度,而沒(méi)有不期望地對(duì)由第一非語(yǔ)音通道確定的語(yǔ)音 增強(qiáng)內(nèi)容進(jìn)行衰減;且
[0025] 在步驟化)中確定的該至少一個(gè)第二衰減控制值是第二衰減控制值的序列,每個(gè) 第二衰減控制值是用于縮放增益量的增益控制值,該增益量通過(guò)回避電路施加到第二非語(yǔ) 音通道W改善由該語(yǔ)音通道確定的語(yǔ)音的可辨識(shí)度,而沒(méi)有不期望地對(duì)由第二非語(yǔ)音通道 確定的語(yǔ)音增