專利名稱:用于瞬時峰值電平管理和語音清晰度提高的方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及音頻信號處理。更具體地,本發(fā)明涉及用于瞬時音頻信號峰值動 態(tài)調(diào)整的改進的系統(tǒng)和方法,其中瞬時音頻信號峰值動態(tài)調(diào)整用于提高輔音的可聽度并同 時保留元音的音質(zhì)以及用于消除可能有害的聲音沖激瞬態(tài)以有益于聽力保護。
背景技術(shù):
在一些情況下通過數(shù)字控制方法實現(xiàn)的信號處理的科學(xué)與技術(shù)已經(jīng)實現(xiàn)許多信 號變換方法的發(fā)展,包括陡峭且靈活的濾波、動態(tài)范圍壓縮、音高變換和多種減少噪聲方 案。尤其在信號幅度的動態(tài)范圍壓縮領(lǐng)域中,大多數(shù)現(xiàn)有技術(shù)方法需要反饋環(huán),在反饋環(huán)中 使用某種檢測閾值和電壓控制機制來降低超過已限定輸出電平的輸出。這些方法必然引入 用于進行調(diào)整的某一時間常數(shù)或時間延遲,該時間常數(shù)或時間延遲通常持續(xù)幾十毫秒???感知的干擾經(jīng)常產(chǎn)生于這種延遲時間。此外,短暫的瞬態(tài)峰值可能在自適應(yīng)過程期間通過, 這可能損害內(nèi)耳毛細胞。通常,與由持續(xù)時間更長的噪聲所引起的聽覺損害相比,沖激噪聲 損害更可能發(fā)生,這主要是由于人類聽覺系統(tǒng)的響度體驗所需要的積分時間大約是100到 200毫秒。換種方式來說,身體損傷強度級可能沒有以促使聽者撤離的方式被該聽者在心理 聽覺上察覺到或體驗到。在授予Orban的第4,249,042號美國專利中公開了旨在降低過高峰值強度和/或 控制動態(tài)電平的信號處理設(shè)計,其需要頻帶分離和使用增益控制反饋環(huán)。雖然該方法使用 削波技術(shù)進行過沖保護,但是將要表明在關(guān)于使用削波方面,本發(fā)明相對于‘042公開而言 具有重要且創(chuàng)新的差異。也授予Orban的第4,208,548號和第5,168,526號美國專利更具體地提出了用 于在模擬電壓放大系統(tǒng)中控制削波的方法,而且還采用高頻濾波器方法來去除不想要的失 真。應(yīng)當(dāng)注意,高頻濾波沒有去除復(fù)雜信號中的低頻互調(diào)失真分量。本發(fā)明具有幾項可辨 別的檢測特征,并且不需要濾波器技術(shù)來去除可感知的失真。授予Bhattacharya等的第5,815,532號美國專利公開了用于處理無線電廣 播信號的方法,在該無線電廣播信號中可以通過控制邊帶來細分載波頻率。最近以來, Ishimitsu等在第5,255,325號美國專利中描述了用于對產(chǎn)生于反饋環(huán)的延遲進行調(diào)整的 又一種帶有時間常數(shù)表的自動增益控制方法。類似地,授予Allred的第6,757,396號美國 專利清楚地介紹了與反饋環(huán)的設(shè)計有關(guān)的延遲。另一方面,授予Yamada的第7,233,200號 美國專利公開了一種方法,該方法根據(jù)對輸入信號的以輸入信號的周期為單位的信號電平 所進行的檢測來對適合的恢復(fù)時間常數(shù)做出估計。但是,Yamada公開的方法趨向用于記錄目的且不適合于實時應(yīng)用。顯然,本發(fā)明的系統(tǒng)和方法適合于記錄音頻處理和現(xiàn)場音頻處理。本發(fā)明的處理方法通過放棄通常使用的反饋環(huán)以及提供受控的削峰和信號檢測 的創(chuàng)新方法克服了現(xiàn)有技術(shù)沒有解決的這些和其它問題。該方法引入輕柔聲音和中度聲音 的精確計算的放大,以有利于聽覺細節(jié)感知而且特別有利于語音理解。它同時以瞬時方式 減少持續(xù)時間短的高電平?jīng)_激尖峰。這有效地減弱了作用在耳蝸至關(guān)重要的纖毛上的應(yīng) 力,從而向聽者提供了寶貴的聽力保護益處。眾所周知,對娛樂、電信、和其它電子音頻設(shè)備 的高電平輸出與延長的收聽時間的結(jié)合導(dǎo)致永久性感覺神經(jīng)聽力損傷。通過減少向在甚至 只是幾個小時的音頻信號傳輸過程中發(fā)生的數(shù)以千計的沖激峰值的暴露,從本發(fā)明的操作 所處理的音頻信號的系統(tǒng)和方法中可以預(yù)期得到確定的保護性和預(yù)防性的益處。
圖1是本發(fā)明的處理級的流程圖;圖2是音樂記錄段落的示例的聲波圖的圖形表示,其圖示了平均能量分布位于峰 值能量值以下IOdB處(峰值的32% );圖3是圖2的聲波圖的放大圖,其圖示了由超過IOdB的偏離對總功率的貢獻小于 由剩余信號所貢獻的功率的一半;圖4是圖示從圖2的波形進行IOdB峰值功率的峰值切除之后的視圖;圖5圖示了在削波之后放大(或者以IOdB “過驅(qū)動”)的圖2-圖4的信號;圖6圖示了對于人類聽者的經(jīng)典時間積分模式,其示出了檢測能力作為持續(xù)時間 的函數(shù)的陡降;直到信號持續(xù)時間達到大約100毫秒,響度才完全積分;圖7圖示了沒有進行本發(fā)明的處理的情況下單句語音樣本的平均譜。低頻自然在 強度上更大,這使得較高頻率輔音的感知更加困難;圖8圖示了在由本發(fā)明處理之后的圖7中所示的語音句子,其示出了通過對低頻 區(qū)進行濾波以使平均譜變平而沒有導(dǎo)致不希望出現(xiàn)的對頻率響應(yīng)的偏置;圖9a圖示了女性說話者對單詞“Intuition”發(fā)音的聲音波形;圖9b圖示了在由本發(fā)明處理之后的圖9的波形,其示出了軟輔音已經(jīng)增強,導(dǎo)致 可聽見的清晰度改進;圖IOa圖示了同時疊加有一系列尖銳的、高強度的沖激的男性說話者對句子發(fā)音 的聲音波形。在由本發(fā)明處理之后(圖10b),明顯去除了沖激尖峰。同時,輕柔語音已經(jīng)得 到增強,有利于更高的清晰度;以及圖IOb圖示了在由本發(fā)明處理之后的圖IOa的波形,其示出了伴隨有輕柔語音增 強和可聽見的聲音清晰度改進的沖激尖峰的去除。
具體實施例方式應(yīng)注意,本說明書通過指示性示例實現(xiàn),并且本文提供的概念不限于適合任何單 個音頻處理設(shè)備的使用或者應(yīng)用。因此,盡管本文所描述的處理創(chuàng)新的細節(jié)是為了便于進 行與示例性實施方式有關(guān)的說明和解釋,所公開的原理可應(yīng)用于音頻電子信號傳輸?shù)钠渌?類型和應(yīng)用。它們可在數(shù)字結(jié)構(gòu)和模擬結(jié)構(gòu)中實現(xiàn)。如果在模擬結(jié)構(gòu)中,那么可以采用對RC時間常數(shù)的靈巧選擇來實現(xiàn)在以下段落中描述的本發(fā)明獨特的檢測和處理級;然而,在 數(shù)字形式中,其與規(guī)劃適合的參數(shù)有關(guān)?,F(xiàn)在參照圖1,依賴于幅度變化率,動態(tài)變化的信號如圖2中所示的記錄的音樂段 落的信號或者圖7中所示的人類語音模式的信號在的三個分離的時間分析窗內(nèi)得到檢查 和處理。無失真快速檢測器向短暫沖激或者幅度的通??焖僮兓┘?毫秒(msec.)的啟 動和釋放時間(attack and release);作為示例,幅度變化發(fā)生在大約2毫秒到大約2秒 的范圍內(nèi)。幅度的快速降低引起快速釋放元素(element)。因此,啟動時間和釋放時間依賴 于輸入幅度變化率。更慢變化的信號幅度如有韻律的發(fā)音模式通過2000毫秒(2秒)的啟動和釋放時 間被管理。該時間段覆蓋幾個口語單詞并使得一般水平的說話音能夠被識別。當(dāng)輸入信號 幅度變化率大于大約2秒時,本質(zhì)上,該方法的這個部分對語音信號的接收電平保持連續(xù) 監(jiān)視以最佳保持信號輸出中的清晰度和逼真度并降低削波步驟的速度。本發(fā)明充分利用人類聽覺系統(tǒng)中時間積分的心理聲學(xué)特征。這是該方法的至關(guān)重 要的方面。眾所周知,信號的響度在大約100毫秒的時間窗內(nèi)進行積分。因此,持續(xù)時間較 短的沖激尖峰聽起來相當(dāng)輕柔且經(jīng)常感覺不到。對此的說明在圖3和圖4中示出。在該示 例中,以示例方式圖示了音樂段落的特定動態(tài)幅度模式,該特定動態(tài)幅度模式具有通過本 發(fā)明去除的IOdB的幅度峰值降低,該幅度峰值降低因心理聲學(xué)地確定的時間積分而具有 的凈結(jié)果是僅0. 2dB的響度降低。由于短暫瞬態(tài)發(fā)生的總時間僅為大約10毫秒或者100 毫秒響度積分窗的1/10,因此峰值電平在100毫秒聽覺積分窗中將僅貢獻總功率的1/20。 這將導(dǎo)致10(lOg(l+l/20))或者僅0.2dB的響度增加。因此,可以看出,峰值功率的瞬時限 制沒有明顯影響響度;但是,可能有害的尖峰已被去除?,F(xiàn)有技術(shù)對削波所引起的失真的可 聽度做出的假設(shè)以傳統(tǒng)的測量方法為基礎(chǔ),傳統(tǒng)的測量方法大大地延長實際上非常短暫的 視覺分析信號且對于該信號而言經(jīng)?!皟鼋Y(jié)”。對短暫信號失真如產(chǎn)生于削波的諧波的感知 結(jié)果的這種常見錯誤描繪與本方法的獨特特征直接相關(guān)?,F(xiàn)在參照圖5,其中示出了經(jīng)削波之后放大的或者以IOdB “過驅(qū)動”的圖3和圖4 的音頻信號。持續(xù)時間長的信號的平均電平增加,這為輕柔的和中度的聲音產(chǎn)生了增加的 響度,其凈效果是增強信號的細節(jié)和清晰度。極快速的高電平?jīng)_激,即小于2秒的高電平?jīng)_激由圖1中所示的第三級瞬時地向 下調(diào)整,圖1中所示的第三級施加無任何時間延遲的受控削波。由于圖6中所示的以及之 前所解釋的時間積分滾降的原因,這些信號的極度短暫使得與削波相關(guān)聯(lián)的失真達到通常 感覺不到的程度。音頻系統(tǒng)以及相當(dāng)嘈雜的輸入環(huán)境中的語音清晰度經(jīng)常受到低頻的、較高能量的 元音的較高強度的損害,低頻的、較高能量的元音趨于掩蓋較高頻率的、較低強度的輔音。 傳統(tǒng)的方法經(jīng)常應(yīng)用濾波器技術(shù)以減少低頻噪聲和說話音分量。在一些情況下,方法是偏 置頻譜以有利于高頻。兩種方法都具有形成不希望的尖細聲音的效果并且都對說話音質(zhì)量 產(chǎn)生負面感知的作用。本發(fā)明通過在不使用濾波或者頻率偏置的情況下增強所有輕柔的和 中度的聲音來避免這個問題。所應(yīng)用的增益值的范圍處于大約IdB與40dB之間。當(dāng)輕柔 語音聲音通過系統(tǒng)時,完成了頻譜的整平(flattening),使元音和發(fā)音特性未受到干擾,但 卻明顯增加了更輕柔的清輔音的強度和可感知性。在圖7和圖8中對此進行了非常清晰地示出。此外,圖9示出了女性說話者對多音節(jié)單詞“intuition”發(fā)音的時序波形。顯然,軟 輔音如“T”和“SH”在通過使用本發(fā)明進行處理的樣本中得到增強。值得注意的是,這種處 理沒有改變基本的發(fā)音特性并瞬時地產(chǎn)生清晰度的提高。突然尖銳的短暫聽覺尖峰既令人煩惱又可能損害內(nèi)耳的柔弱毛細胞結(jié)構(gòu)。本發(fā)明 瞬時地去除這種沖激(圖10),而不存在通常與現(xiàn)有方法相關(guān)聯(lián)的延遲或者添加的失真。一串脈沖沖激(或者在連續(xù)的正弦或復(fù)雜信號中的峰)被當(dāng)作長期(Long Term) 信號處理。因為啟動和釋放時間是指數(shù)函數(shù),所以語音中元音的結(jié)尾處的恢復(fù)相對較快,這 允許例如音樂中的輔音或者其它低電平聲音得到幾乎完全的放大。在不背離上述方法、設(shè)備和結(jié)構(gòu)的范圍的條件下,可以對其進行改變。因而應(yīng)注 意,在以上描述中所包含的和/或在附圖中所示出的內(nèi)容應(yīng)當(dāng)被解釋為說明性的而非具有 限制意義的。權(quán)利要求旨在涵蓋本文所描述的所有一般特征和具體特征以及對本方法、設(shè) 備和結(jié)構(gòu)的范圍的所有陳述,從語言角度來講,可以說對本方法、設(shè)備和結(jié)構(gòu)的范圍的所有 陳述落入一般特征與具體特征之間。
權(quán)利要求
1.一種用于提高聽覺語音信號清晰度的方法,包括 連續(xù)測量輸入信號的平均電平;以預(yù)定的系數(shù)向語音信號應(yīng)用至少一個增益值;以及同時將輸入語音信號的峰值削波預(yù)先計算的量,從而使輕柔的高頻清輔音口語成分可 感知地增強。
2.如權(quán)利要求1所述的方法,還包括連續(xù)測量輸入信號的波形幅度和波形幅度變化率。
3.如權(quán)利要求2所述的方法,包括響應(yīng)于所測量的波形幅度變化率調(diào)整削波步驟的速度。
4.如權(quán)利要求3所述的方法,其中,當(dāng)波形幅度變化率小于2.0毫秒時,瞬時地執(zhí)行所 述削波步驟。
5.如權(quán)利要求3所述的方法,其中,當(dāng)所述波形幅度變化率大于2.0毫秒時,降低所述 削波步驟的速度。
6.如權(quán)利要求5所述的方法,其中,當(dāng)所述波形幅度變化率大于2.0秒時,進一步降低 所述削波步驟的速度。
7.如權(quán)利要求1所述的方法,其中,所應(yīng)用的增益值的范圍處于大約IdB與大約40dB 之間。
8.如權(quán)利要求1所述的方法,其中,所述輸入信號包括寬帶信號。
9.如權(quán)利要求1所述的方法,其中,所述輸入信號包括多個頻帶分離的信號。
全文摘要
提供了一種方法,該方法用于提高輕柔和中度幅度的聲音以獲得更高清晰度和感知的益處,并且同時在無延遲的情況下去除高電平幅度峰值且為聽力感覺器官提供保護。該方法不需要用于實現(xiàn)這種處理的反饋機制,并且充分利用了時間積分的心理聲學(xué)現(xiàn)象,該時間積分的心理聲學(xué)現(xiàn)象降低持續(xù)時間短的信號的可聽性,其中持續(xù)時間短的信號包括與削峰相關(guān)聯(lián)的失真。與由短暫持續(xù)時間波形峰值所提供的用于進行信號能量積分以獲得可聽性的時間相比,人類聽覺系統(tǒng)需要的這種時間更多。
文檔編號G10L21/02GK102144257SQ200980103704
公開日2011年8月3日 申請日期2009年1月29日 優(yōu)先權(quán)日2008年1月30日
發(fā)明者H·克里斯托弗·施韋策, 德斯蒙德·阿瑟·斯密斯 申請人:H·克里斯托弗·施韋策, 德斯蒙德·阿瑟·斯密斯, 阿布爾行星公司