專利名稱:在基于線性預(yù)測(cè)的語(yǔ)音編碼解碼器中有效幀刪除隱藏的方法和器件的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于考慮到發(fā)送和/或合成聲音信號(hào)而數(shù)字編碼這個(gè)聲音信號(hào)的技術(shù),所述聲音信號(hào)特別是、但又不限于語(yǔ)音信號(hào)。更具體而言,本發(fā)明涉及,在由于例如在無(wú)線系統(tǒng)中的信道誤差或在通過(guò)分組網(wǎng)絡(luò)應(yīng)用的話音傳輸應(yīng)用中的丟失分組而被刪除的幀的情況下,強(qiáng)壯地(robust)編碼和解碼聲音信號(hào)以保持良好的性能。
背景技術(shù):
在諸如電話會(huì)議、多媒體和無(wú)線通信的各種應(yīng)用領(lǐng)域中越來(lái)越需要具有在主觀質(zhì)量和比特率之間的良好折中的、有效數(shù)字窄帶和寬帶語(yǔ)音編碼技術(shù)。直到近期,在語(yǔ)音編碼應(yīng)用中主要使用被限于范圍200-3400Hz的電話帶寬。但是,寬帶語(yǔ)音應(yīng)用與傳統(tǒng)的電話帶寬相比較提供了在通信中的提高的可懂度和自然度。已經(jīng)發(fā)現(xiàn)在范圍50-7000Hz中的帶寬主要足夠提供給出面對(duì)面通信印象的良好質(zhì)量。對(duì)于一般的音頻信號(hào),這個(gè)帶寬給出了可接受的主觀質(zhì)量,但是仍然低于分別在范圍20-16000Hz和20-20000Hz上工作的FM無(wú)線電或CD的質(zhì)量。
語(yǔ)音編碼器將語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字比特流。所述數(shù)字比特流被通過(guò)通信信道發(fā)送或存儲(chǔ)在存儲(chǔ)介質(zhì)中。語(yǔ)音數(shù)據(jù)被數(shù)字化,即以每個(gè)采樣16個(gè)比特來(lái)被采樣和量化。語(yǔ)音編碼器具有在保持良好的主觀語(yǔ)音質(zhì)量的同時(shí)以較小數(shù)量的比特表示這些數(shù)字采樣的角色。語(yǔ)音解碼器或合成器操作被發(fā)送或存儲(chǔ)的比特流,并且將其轉(zhuǎn)換回聲音信號(hào)。
碼激勵(lì)線性預(yù)測(cè)(CELP)編碼是用于獲得在主觀質(zhì)量和比特率之間的良好折衷的最佳可用技術(shù)之一。這種編碼技術(shù)是在無(wú)線和有線應(yīng)用中的幾種語(yǔ)音編碼標(biāo)準(zhǔn)的基礎(chǔ)。在CELP編碼中,以通常被稱為幀的L個(gè)采樣的連續(xù)塊來(lái)處理被采樣的語(yǔ)音信號(hào),其中L是通常對(duì)應(yīng)于10-30毫秒的預(yù)定數(shù)量。對(duì)每個(gè)幀計(jì)算和發(fā)送線性預(yù)測(cè)(LP)濾波器。LP濾波器的計(jì)算通常需要一個(gè)前視(lookahead),即自后續(xù)幀的一個(gè)5-15毫秒的語(yǔ)音段。L采樣幀被劃分為被稱為子幀的更小的塊。通常子幀的數(shù)量是3或4,導(dǎo)致4-10毫秒的子幀。在每個(gè)子幀中,通常從兩個(gè)分量、即過(guò)去激勵(lì)和新穎的固定代碼本激勵(lì)來(lái)獲得激勵(lì)信號(hào)。從過(guò)去激勵(lì)形成的分量經(jīng)常被稱為自適應(yīng)代碼本或音調(diào)激勵(lì)。代表激勵(lì)信號(hào)的特征的參數(shù)被編碼和發(fā)送到解碼器,其中重建的激勵(lì)信號(hào)被用作LP濾波器的輸入。
由于低比特率語(yǔ)音編碼的主要應(yīng)用是無(wú)線移動(dòng)通信系統(tǒng)和通過(guò)分組網(wǎng)絡(luò)的話音傳輸,因此在幀刪除的情況下提高語(yǔ)音編碼解碼的強(qiáng)壯性變得特別重要。在無(wú)線蜂窩系統(tǒng)中,所接收的信號(hào)的能量可以顯示出頻繁的嚴(yán)重衰落,導(dǎo)致高的比特誤差率,并且這在小區(qū)邊界變得更明顯。在這種情況下,信道解碼器不能校正在所接收的幀中的誤差,結(jié)果,通常在信道解碼器后使用的誤差檢測(cè)器將所述幀聲稱為被刪除。在通過(guò)分組網(wǎng)絡(luò)的話音傳輸應(yīng)用中,語(yǔ)音信號(hào)被分組化,其中在每個(gè)分組中通常布置一個(gè)20毫秒的幀。在分組交換通信中,如果分組的數(shù)量變得很大,則在路由器會(huì)發(fā)生分組丟失,或者分組會(huì)在很長(zhǎng)的延遲后到達(dá)接收器,并且如果其延遲大于在接收器端的抖動(dòng)緩沖器的長(zhǎng)度則它將被聲稱為丟失。在這些系統(tǒng)中,編碼解碼通常承受3-5%的幀刪除率。而且,寬帶語(yǔ)音編碼的使用是這些系統(tǒng)的重要資產(chǎn),以便使得它們可以與使用傳統(tǒng)的窄帶語(yǔ)音信號(hào)的傳統(tǒng)的PSTN(公共交換電話網(wǎng)絡(luò))競(jìng)爭(zhēng)。
在CELP中的自適應(yīng)代碼本或音調(diào)預(yù)測(cè)器在以低比特率保持高語(yǔ)音質(zhì)量中扮演重要角色。但是,因?yàn)樽赃m應(yīng)代碼本的內(nèi)容是基于來(lái)自過(guò)去的幀的信號(hào),因此這使得編碼解碼模型對(duì)于幀丟失敏感。在被刪除或丟失的幀的情況下,在解碼器的自適應(yīng)代碼本的內(nèi)容變得與在編碼器的其內(nèi)容不同。因此,在一個(gè)被丟失的幀被隱藏并且接收到隨后的良好幀后,在所接收的良好幀中的合成信號(hào)與預(yù)期的合成信號(hào)不同,因?yàn)樽赃m應(yīng)代碼本的作用已經(jīng)改變。丟失的幀的影響依賴于其中發(fā)生刪除的語(yǔ)音段的性質(zhì)。如果在信號(hào)的靜止分段中發(fā)生刪除,則可以執(zhí)行有效的幀刪除,并且可以最小化對(duì)于隨后的良好幀的影響。另一方面,如果在語(yǔ)音開始或過(guò)渡中發(fā)生刪除,則刪除的影響可以傳播到幾個(gè)幀。例如,如果丟失了話音分段的開始,則第一音調(diào)周期就會(huì)從自適應(yīng)代碼本內(nèi)容丟失。這將對(duì)于在隨后的良好幀中的音調(diào)預(yù)測(cè)器有嚴(yán)重的影響,導(dǎo)致在合成信號(hào)與在編碼器的期望的信號(hào)達(dá)成一致之前要很長(zhǎng)時(shí)間。
發(fā)明內(nèi)容
本發(fā)明涉及一種方法,用于改善在從編碼器向解碼器的發(fā)送期間被刪除的編碼的聲音信號(hào)的幀引起的幀刪除的隱藏,并且用于促進(jìn)在已經(jīng)接收到所述編碼的聲音信號(hào)的未刪除幀后解碼器的恢復(fù),包括在編碼器中確定隱藏/恢復(fù)參數(shù);向解碼器發(fā)送在編碼器確定的隱藏/恢復(fù)參數(shù);在解碼器,響應(yīng)于所接收的隱藏/恢復(fù)參數(shù)而進(jìn)行刪除幀隱藏和解碼器恢復(fù)。
本發(fā)明也涉及一種方法,用于在以信號(hào)編碼參數(shù)形式下編碼的聲音信號(hào)從編碼器向解碼器的發(fā)送期間被刪除的幀引起的幀刪除的隱藏,并且用于促進(jìn)在已經(jīng)接收到所述編碼的聲音信號(hào)的未刪除幀后解碼器的恢復(fù),包括在解碼器中從所述信號(hào)編碼參數(shù)確定隱藏/恢復(fù)參數(shù);在解碼器中,響應(yīng)于所確定的隱藏/恢復(fù)參數(shù)而進(jìn)行刪除幀隱藏和解碼器恢復(fù)。
按照本發(fā)明,也提供了一種器件,用于改善在從編碼器向解碼器的發(fā)送期間被刪除的編碼的聲音信號(hào)的幀引起的幀刪除的隱藏,并且用于促進(jìn)在已經(jīng)接收到所述編碼的聲音信號(hào)的未刪除幀后解碼器的恢復(fù),包括用于在編碼器中確定隱藏/恢復(fù)參數(shù)的部件;用于向解碼器發(fā)送在編碼器確定的隱藏/恢復(fù)參數(shù)的部件;在解碼器,用于響應(yīng)于所接收的隱藏/恢復(fù)參數(shù)而進(jìn)行刪除幀隱藏和解碼器恢復(fù)的部件。
按照本發(fā)明,還提供了一種器件,用于在以信號(hào)編碼參數(shù)形式下編碼的聲音信號(hào)從編碼器向解碼器的發(fā)送期間被刪除的幀引起的幀刪除的隱藏,并且用于促進(jìn)在已經(jīng)接收到所述編碼的聲音信號(hào)的未刪除幀后解碼器的恢復(fù),包括用于在解碼器中從所述信號(hào)編碼參數(shù)確定隱藏/恢復(fù)參數(shù)的部件;在解碼器中,用于響應(yīng)于所確定的隱藏/恢復(fù)參數(shù)而進(jìn)行刪除幀隱藏和解碼器恢復(fù)的部件。
本發(fā)明也涉及一種用于編碼和解碼聲音信號(hào)的系統(tǒng)和使用上述器件的聲音信號(hào)編碼器,用于改善在從編碼器向解碼器的發(fā)送期間被刪除的編碼的聲音信號(hào)的幀引起的幀刪除的隱藏,并且用于促進(jìn)在已經(jīng)接收到所述編碼的聲音信號(hào)的未刪除幀后解碼器的恢復(fù)。
在閱讀參照附圖僅僅通過(guò)示例給出的、本發(fā)明的說(shuō)明性實(shí)施例的下面的非限定性說(shuō)明后,本發(fā)明的上述和其他目的、優(yōu)點(diǎn)和特點(diǎn)將變得更為明顯。
圖1是圖解按照本發(fā)明的語(yǔ)音編碼和解碼器件的應(yīng)用的、語(yǔ)音通信系統(tǒng)的示意方框圖;圖2是寬帶編碼器件(AMR-WB編碼器)的示例的示意方框圖;圖3是寬帶解碼器件(AMR-WB解碼器)的示例的示意方框圖;圖4是圖2的AMR-WB編碼器的簡(jiǎn)化方框圖,其中,下采樣器模塊、高通濾波器模塊和預(yù)加重濾波器模塊已經(jīng)被編組到單個(gè)預(yù)處理模塊中,其中閉環(huán)音調(diào)搜索模塊、零輸入響應(yīng)計(jì)算器模塊、脈沖響應(yīng)產(chǎn)生器模塊、新穎激勵(lì)搜索模塊和存儲(chǔ)器更新模塊已經(jīng)被編組到單個(gè)閉環(huán)音調(diào)和新穎代碼本搜索模塊中;圖5是其中已經(jīng)增加了與本發(fā)明的說(shuō)明性實(shí)施例相關(guān)聯(lián)的模塊的、圖4的方框圖的擴(kuò)展;圖6是說(shuō)明當(dāng)構(gòu)建人工開始時(shí)的情況的方框圖;圖7是示出用于刪除隱藏的幀分類狀態(tài)機(jī)的說(shuō)明性實(shí)施例的示意圖。
具體實(shí)施例方式
雖然在下面的說(shuō)明中與語(yǔ)音信號(hào)相關(guān)聯(lián)的地說(shuō)明本發(fā)明的說(shuō)明性實(shí)施例,但是應(yīng)當(dāng)記住,本發(fā)明的思想等同地適用于其他類型的信號(hào),特別是、但又不限于其他類型的語(yǔ)音信號(hào)。
圖1圖解了描述在本發(fā)明的環(huán)境中的語(yǔ)音編碼和解碼的使用的語(yǔ)音通信系統(tǒng)100。圖1的語(yǔ)音通信系統(tǒng)100支持通過(guò)通信信道101的語(yǔ)音信號(hào)的發(fā)送。雖然它可以包括例如導(dǎo)線、光鏈路或纖鏈路,但是,通信信道101通常至少部分地包括射頻鏈路。所述射頻鏈路經(jīng)常支持需要共享的帶寬資源的多個(gè)同時(shí)的語(yǔ)音通信,所述共享的帶寬資源諸如可以在蜂窩電話系統(tǒng)中發(fā)現(xiàn)的那樣。雖然未示出,通信信道101可以被替代為在系統(tǒng)100的單個(gè)器件實(shí)施例中的存儲(chǔ)器,其用于記錄和存儲(chǔ)編碼的語(yǔ)音信號(hào)以用于未來(lái)的重放。
在圖1的語(yǔ)音通信系統(tǒng)100中,麥克風(fēng)102產(chǎn)生模擬語(yǔ)音信號(hào)103,它被提供到模數(shù)(A/D)轉(zhuǎn)換器104,用于將其轉(zhuǎn)換為數(shù)字語(yǔ)音信號(hào)105。語(yǔ)音編碼器106將數(shù)字語(yǔ)音信號(hào)105編碼以產(chǎn)生一組信號(hào)編碼參數(shù)107,它們被編碼為二進(jìn)制形式,并且被提供到信道編碼器108。選用的信道編碼器108在通過(guò)通信信道101發(fā)送它們之前向所述信號(hào)編碼參數(shù)107的二進(jìn)制表示添加冗余。
在接收器中,信道解碼器109使用在所接收的比特流111中的所述冗余信息來(lái)檢測(cè)和校正在發(fā)送期間發(fā)生的信道誤差。語(yǔ)音解碼器110將從信道解碼器109接收的比特流112轉(zhuǎn)換回一組信號(hào)編碼參數(shù),并且從被恢復(fù)的信號(hào)編碼參數(shù)建立數(shù)字合成語(yǔ)音信號(hào)113。在語(yǔ)音解碼器110重建的數(shù)字合成語(yǔ)音信號(hào)113被數(shù)模(D/A)轉(zhuǎn)換器115轉(zhuǎn)換為模擬形式114,并且通過(guò)揚(yáng)聲器單元116被重放。
在本說(shuō)明書中公開的有效幀刪除隱藏方法的說(shuō)明性實(shí)施例可以用于基于窄帶或?qū)拵У木€性預(yù)測(cè)的編碼解碼器。本說(shuō)明性實(shí)施例與寬帶語(yǔ)音編碼解碼器相關(guān)聯(lián)的被公開,所述寬帶語(yǔ)音編碼解碼器已經(jīng)被國(guó)際電聯(lián)(ITU)標(biāo)準(zhǔn)化為推薦G.722.2,并且被稱為AMR-WB編碼解碼器(自適應(yīng)多速率寬帶編碼解碼器)[ITU-T Recommendation G.722.2“Wideband coding of speech at around 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB)”,Geneva,2002(ITU-T推薦G.722.2,“使用自適應(yīng)多速率寬帶(AMR-WB)的在16千比特/秒的語(yǔ)音的寬帶編碼”,日內(nèi)瓦,2002)]。這個(gè)編碼解碼器也已經(jīng)被用于第三代無(wú)線系統(tǒng)中的寬帶電話的第三代合作工程(3GPP)選擇[3GPP TS 26.190,“AMRWideband Speech CodecTranscoding Functions,”3GPP Techhical Specification(3GPP TS 26.190,“AMR寬帶語(yǔ)音編碼解碼器碼變換功能”,3GPP技術(shù)規(guī)范)]。AMR-WB可以工作在從6.6到23.85千比特/秒范圍的9比特速率上。12.65千比特/秒的比特率被用于說(shuō)明本發(fā)明。
在此,應(yīng)當(dāng)明白,有效幀刪除隱藏方法的說(shuō)明性實(shí)施例可以被應(yīng)用到其他類型的編碼解碼器。
在下面的部分中,將首先提供AMR-WB編碼器和解碼器的概覽。然后將公開用于改善編碼解碼器的強(qiáng)壯性的新方案的說(shuō)明性實(shí)施例。
AMR-WB編碼器概覽采樣的語(yǔ)音信號(hào)被圖2的編碼器件200逐個(gè)塊地進(jìn)行編碼,編碼器件200被拆分為從201到211編號(hào)的11個(gè)模塊。
輸入語(yǔ)音信號(hào)212因此逐個(gè)塊地、即在上述的被稱為幀的L個(gè)采樣塊中被處理。
參見圖2,采樣的輸入語(yǔ)音信號(hào)212在下采樣器模塊201中被下采樣。使用本領(lǐng)域內(nèi)的普通技術(shù)人員公知的技術(shù),所述信號(hào)被從16kHz下采樣到12.8kHz。下采樣提高了編碼效率,因?yàn)榫幋a較小的頻帶寬度。這也降低了算法的復(fù)雜性,因?yàn)闇p少了在幀中的采樣的數(shù)量。在下采樣后,20毫秒的320個(gè)采樣的幀被降低到256個(gè)采樣的幀(下采樣比率4/5)。
輸入的幀然后被提供到選用的預(yù)處理模塊202。預(yù)處理模塊202可以由具有50Hz截止頻率的高通濾波器組成。高通濾波器202去除低于50Hz的不需要的聲音分量。
所述下采樣的、預(yù)處理的信號(hào)被表示為sp(n),n=0,1,2,...,L-1,其中L是幀的長(zhǎng)度(在12.8kHz的采樣頻率下是256)。在預(yù)加重濾波器203的一個(gè)說(shuō)明性實(shí)施例中,使用具有下面轉(zhuǎn)移函數(shù)的濾波器來(lái)預(yù)加重信號(hào)sp(n)P(z)=1-μz-1其中,μ是預(yù)加重系數(shù),它具有在0和1之間的值(典型值是μ=0.7)。預(yù)加重濾波器203的功能是用于加強(qiáng)輸入的語(yǔ)音信號(hào)的高頻內(nèi)容。它也降低了輸入的語(yǔ)音信號(hào)的動(dòng)態(tài)范圍,這使得它更適合于固定點(diǎn)的實(shí)現(xiàn)。預(yù)加重也在獲得量化誤差的正確的總體感性加權(quán)中扮演重要的角色,所述加權(quán)有助于改善的聲音質(zhì)量。下面更詳細(xì)地說(shuō)明此。
預(yù)加重濾波器203的輸出被表示為s(n)。這個(gè)信號(hào)用于在模塊204中執(zhí)行LP分析。LP分析是本領(lǐng)域內(nèi)普通技術(shù)人員公知的技術(shù)。在這個(gè)說(shuō)明性實(shí)現(xiàn)方式中,使用自相關(guān)方案。在所述自相關(guān)方案中,通常使用具有30-40毫秒等級(jí)的長(zhǎng)度的漢明(hamming)窗口來(lái)為信號(hào)s(n)加窗口。從加窗口的信號(hào)來(lái)計(jì)算自相關(guān),并且使用Levinson-Durbin遞歸來(lái)計(jì)算LP濾波器系數(shù)aj,其中i=1,...,p,并且其中p是LP階,它在寬帶編碼中通常是16。參數(shù)aj是LP濾波器的轉(zhuǎn)移函數(shù)A(z)的系數(shù),它由下面的關(guān)系式給出A(z)=1+Σi=1paiz-i]]>在模塊204執(zhí)行LP分析,模塊204也執(zhí)行LP濾波器系數(shù)的量化和內(nèi)插。LP濾波器系數(shù)首先被變換到更適合于量化和內(nèi)插目的的另一個(gè)等同的域中。線譜對(duì)(LSP)和導(dǎo)抗譜對(duì)(ISP)域是其中可以有效地執(zhí)行量化和內(nèi)插的兩個(gè)域。16個(gè)LP濾波器系數(shù)aj可以使用分開或多級(jí)量化或其組合來(lái)以30-50比特的等級(jí)量化16個(gè)LP濾波器系數(shù)aj。內(nèi)插的目的是使能每個(gè)幀更新LP濾波器系數(shù),同時(shí)每個(gè)幀發(fā)送它們一次,這改善了編碼器性能而不提高比特率。LP濾波器系數(shù)的量化和內(nèi)插相信是本領(lǐng)域內(nèi)普通技術(shù)人員公知的,因此不在本說(shuō)明書中進(jìn)一步說(shuō)明。
下面的段落將說(shuō)明在子幀基礎(chǔ)上執(zhí)行的編碼操作的其余部分。在這個(gè)說(shuō)明性實(shí)現(xiàn)方式中,輸入幀被分類為5毫秒的4個(gè)子幀(以12.8kHz的采樣頻率的64個(gè)采樣)在下面的說(shuō)明中,濾波器A(z)表示子幀的未量化的內(nèi)插LP濾波器,并且濾波器 表示子幀的量化的內(nèi)插LP濾波器。每個(gè)幀向復(fù)用器213提供濾波器 用于通過(guò)通信信道來(lái)進(jìn)行發(fā)送。
在合成分析編碼器中,通過(guò)最小化在感覺(jué)加權(quán)域中在輸入的語(yǔ)音信號(hào)212和合成的語(yǔ)音信號(hào)之間的均方誤差來(lái)搜索最佳音調(diào)和革新(innovation)參數(shù)。響應(yīng)于來(lái)自預(yù)加重濾波器203的信號(hào)s(n)而在感覺(jué)加權(quán)濾波器205中計(jì)算加權(quán)信號(hào)sw(n)。使用適合于寬帶信號(hào)的具有固定分母的的感覺(jué)加權(quán)濾波器205。通過(guò)下面的關(guān)系式來(lái)給出用于感覺(jué)加權(quán)濾波器205的轉(zhuǎn)移函數(shù)的實(shí)例W(z)=A(z/γ1)/(1-γ2z-1) 其中0<γ2<γ1≤1為了簡(jiǎn)化音調(diào)分析,首先在開環(huán)音調(diào)搜索模塊206中從加權(quán)的語(yǔ)音信號(hào)sw(n)估計(jì)開環(huán)音調(diào)時(shí)滯TOL。然后在子幀基礎(chǔ)上在閉環(huán)音調(diào)搜索模塊207中執(zhí)行的閉環(huán)音調(diào)分析被限制在開環(huán)音調(diào)時(shí)滯TOL周圍,這顯著降低了LTP參數(shù)T(音調(diào)時(shí)滯)和b(音調(diào)增益)的搜索復(fù)雜度。通常使用本領(lǐng)域內(nèi)普通技術(shù)人員公知的技術(shù),每10毫秒(兩個(gè)子幀)一次在模塊206中執(zhí)行開環(huán)音調(diào)分析。
用于LTP(長(zhǎng)期預(yù)測(cè))分析的目標(biāo)向量x首先被計(jì)算。這通常是通過(guò)從加權(quán)的語(yǔ)音信號(hào)sw(n)減去加權(quán)合成濾波器 的零輸入響應(yīng)s0來(lái)完成的。零輸入響應(yīng)計(jì)算器208響應(yīng)于來(lái)自LP分析、量化和內(nèi)插模塊204的量化的內(nèi)插LP濾波器 和響應(yīng)于在存儲(chǔ)器更新模塊211中存儲(chǔ)的加權(quán)合成濾波器 的初始狀態(tài)來(lái)計(jì)算這個(gè)零輸入響應(yīng)s0,其中在存儲(chǔ)器更新模塊211中存儲(chǔ)的加權(quán)合成濾波器 的初始狀態(tài)響應(yīng)于LP濾波器 與激勵(lì)向量u。這種操作是本領(lǐng)域內(nèi)的普通技術(shù)人員公知的,因此不進(jìn)一步說(shuō)明。
使用來(lái)自模塊204的LP濾波器A(z)和 的系數(shù)來(lái)在脈沖響應(yīng)產(chǎn)生器209中計(jì)算加權(quán)合成濾波器 的N維脈沖響應(yīng)向量h。再次,這種操作是本領(lǐng)域內(nèi)的普通技術(shù)人員公知的,因此在本說(shuō)明書中不進(jìn)一步說(shuō)明。
在閉環(huán)音調(diào)搜索模塊207中計(jì)算閉環(huán)音調(diào)(或音調(diào)代碼本)參數(shù)b、T和j,閉環(huán)音調(diào)搜索模塊207使用目標(biāo)向量x、脈沖響應(yīng)向量h和開環(huán)音調(diào)時(shí)滯TOL來(lái)作為輸入。
音調(diào)搜索包括找尋最小化在目標(biāo)向量x和過(guò)去激勵(lì)的定標(biāo)濾波版本之間的均方加權(quán)音調(diào)預(yù)測(cè)誤差的最佳音調(diào)時(shí)滯T和增益b,所述均方加權(quán)音調(diào)預(yù)測(cè)誤差例如e(j)=||x-b(j)y(j))||2其中j=1,2,...,k更具體而言,在本說(shuō)明性實(shí)現(xiàn)方式中,音調(diào)(音調(diào)代碼本)搜索包括三個(gè)階段。
在第一階段,響應(yīng)于加權(quán)語(yǔ)音信號(hào)sw(n)來(lái)在開環(huán)音調(diào)搜索模塊206中估計(jì)開環(huán)音調(diào)時(shí)滯TOL。如在上述的說(shuō)明中所述,通常使用本領(lǐng)域內(nèi)普通技術(shù)人員公知的技術(shù),每10毫秒(兩個(gè)子幀)一次執(zhí)行開環(huán)音調(diào)分析。
在第二階段,在閉環(huán)音調(diào)搜索模塊207中搜索用于在所估計(jì)的開環(huán)音調(diào)時(shí)滯TOL(通?!?)周圍的整數(shù)音調(diào)時(shí)滯的搜索標(biāo)準(zhǔn)C,這大大簡(jiǎn)化了搜索程序。使用簡(jiǎn)單的程序來(lái)用于更新濾波的代碼向量yT(這個(gè)向量在下面的說(shuō)明中被定義)而不必計(jì)算每個(gè)音調(diào)時(shí)滯的卷積。通過(guò)下面的公式來(lái)給出搜索標(biāo)準(zhǔn)C的示例C=xtyTyTtyT]]>其中t表示向量轉(zhuǎn)置矩陣一旦在第二階段中找到最佳整數(shù)音調(diào)時(shí)滯,則搜索的第三階段(模塊207)按照搜索標(biāo)準(zhǔn)C來(lái)測(cè)試在那個(gè)最佳整數(shù)音調(diào)時(shí)滯周圍的小部分(fraction)。例如,AMR-WB標(biāo)準(zhǔn)使用1/4和1/2子采樣分辨率。
在寬帶信號(hào)中,根據(jù)語(yǔ)音分段,僅僅對(duì)于特定的頻率存在諧波結(jié)構(gòu)。因此,為了在寬帶語(yǔ)音信號(hào)的話音分段中獲得音調(diào)分布的有效表示,需要靈活性來(lái)改變?cè)趯拵ьl譜上的周期的量。這是通過(guò)經(jīng)由多個(gè)頻率整形濾波器(例如低通或帶通濾波器)處理音調(diào)代碼向量而被實(shí)現(xiàn)的。選擇最小化均方加權(quán)誤差e(j)的頻率整形濾波器。所選擇的頻率整形濾波器是通過(guò)索引j來(lái)識(shí)別的。
音調(diào)代碼本索引T被編碼和發(fā)送到復(fù)用器213以便通過(guò)通信信道發(fā)送。音調(diào)增益b被量化和發(fā)送到復(fù)用器213。使用額外的比特來(lái)編碼索引j,這個(gè)額外的比特也被提供到復(fù)用器213。
一旦確定了音調(diào)或LTP(長(zhǎng)期預(yù)測(cè))參數(shù)b、T和j,則下一個(gè)步驟是通過(guò)圖2的革新激勵(lì)搜索模塊210來(lái)搜索最佳的革新激勵(lì)。首先,通過(guò)減去LTP貢獻(xiàn)(contribution)來(lái)更新目標(biāo)向量xx’=x-byT其中b是音調(diào)增益,yT是被濾波的音調(diào)代碼本向量(在延遲T的過(guò)去激勵(lì),它使用所選擇的頻率整形濾波器(索引j)被濾波并且使用脈沖響應(yīng)h被卷積)。
在革新代碼本中執(zhí)行在CELP中的革新激勵(lì)搜索程序以尋找最佳激勵(lì)代碼向量ck和增益g,它們最小化在目標(biāo)向量x’和代碼向量ck的定標(biāo)濾波版本之間的均方誤差E,例如E=||x’-gHck||2其中H是從脈沖響應(yīng)向量h導(dǎo)出的低三角卷積矩陣。對(duì)應(yīng)于所找到的最佳代碼向量ck的革新代碼本的索引k和增益g被提供到復(fù)用器213以通過(guò)通信信道發(fā)送。
應(yīng)當(dāng)注意,按照1995年8月22日授予Adoul等的美國(guó)專利5,444,816,所使用的革新代碼本是動(dòng)態(tài)的代碼本,它包括代數(shù)代碼本,其后跟隨自適應(yīng)前置濾波器F(z),自適應(yīng)前置濾波器F(z)增強(qiáng)特殊頻譜分量以便改善合成語(yǔ)音質(zhì)量。在這個(gè)說(shuō)明書實(shí)現(xiàn)中,通過(guò)在下述美國(guó)專利中所述的代數(shù)代碼本來(lái)在模塊210中執(zhí)行革新代碼本搜索1995年8月22日授予的5,444,816(Adoul等);1997年12月17日授予Adoul等的5,699,482;1998年5月19日屬于Adoul等的5,754,976;1997年12月23日的5,701,392(Adoul等)。
AMR-WB解碼器概述圖3的語(yǔ)音解碼器300圖解在數(shù)字輸入322(對(duì)于去復(fù)用器317的輸入比特流)和輸出采樣的語(yǔ)音信號(hào)323(加法器321的輸出)之間執(zhí)行的各種步驟。
去復(fù)用器317從自數(shù)字輸入信道接收的二進(jìn)制信息(輸入的比特流322)提取合成模型參數(shù)。從每個(gè)所接收的二進(jìn)制幀,所提取的參數(shù)是·量化的內(nèi)插LP系數(shù) 也稱為短期預(yù)測(cè)參數(shù)(STP),每一個(gè)幀產(chǎn)生一次;·長(zhǎng)期預(yù)測(cè)(LTP)參數(shù)T、b和j(對(duì)于每個(gè)子幀);·革新代碼本索引k和增益g(對(duì)于每個(gè)子幀)。
根據(jù)這些參數(shù)來(lái)合成當(dāng)前的語(yǔ)音信號(hào),如下所述。
革新代碼本318響應(yīng)于索引k以產(chǎn)生革新代碼向量ck,它由被解碼的增益系數(shù)g通過(guò)放大器324定標(biāo)(scale)。在所述說(shuō)明性實(shí)現(xiàn)中,使用上述的美國(guó)專利5,444,816、5,699,482、5,754,976和5,701,392號(hào)中所述的革新代碼本來(lái)產(chǎn)生革新代碼向量ck。
在放大器324的輸出的所產(chǎn)生的定標(biāo)代碼向量通過(guò)頻率相關(guān)的音調(diào)增強(qiáng)器305被處理。
增強(qiáng)激勵(lì)信號(hào)u的周期性改善了話音分段的質(zhì)量。周期性增強(qiáng)是通過(guò)下述方式實(shí)現(xiàn)的通過(guò)經(jīng)由革新濾波器F(z)(音調(diào)增強(qiáng)器305)從革新(固定的)代碼本過(guò)濾革新代碼向量ck,革新濾波器F(z)的頻率響應(yīng)對(duì)較高頻率的加重比對(duì)較低頻率的加重更多。革新濾波器F(z)的系數(shù)與在激勵(lì)信號(hào)u中的周期數(shù)量相關(guān)聯(lián)。
一種導(dǎo)出革新濾波器F(z)的系數(shù)的有效說(shuō)明性方式是將它們與在整個(gè)激勵(lì)信號(hào)u中的音調(diào)貢獻(xiàn)量相關(guān)聯(lián)。這導(dǎo)致依賴于子幀周期性的頻率響應(yīng),其中較高的頻率被更強(qiáng)地加重(更強(qiáng)的整體斜率)以獲得較高的音調(diào)增益。革新濾波器305具有下述效果當(dāng)激勵(lì)信號(hào)u更加周期性時(shí),降低在較低頻率的革新代碼向量ck的能量,這將比在較高頻率更加增強(qiáng)了在較低頻率的激勵(lì)信號(hào)u的周期性。革新濾波器305的一種建議的形式如下F(z)=-αz+1-αz-1其中α是從激勵(lì)信號(hào)u的周期性水平導(dǎo)出的周期性系數(shù)。在話音系數(shù)產(chǎn)生器304中計(jì)算周期性系數(shù)α。首先,通過(guò)下面的式子來(lái)在話音系數(shù)產(chǎn)生器304中計(jì)算話音系數(shù)rVrV=(EV-Ec)/(EV+Ec)其中EV是定標(biāo)的音調(diào)代碼向量bvT的能量,Ec是定標(biāo)的革新代碼向量gck的能量。即EV=b2vtTvT=b2Σn=0N-1vT2(n)]]>和
Ec=g2cktck=g2Σn=0N-1ck2(n)]]>注意rV的值處于-1和1之間(1對(duì)應(yīng)于純?cè)捯粜盘?hào),而-1對(duì)應(yīng)于純非話音信號(hào))。
通過(guò)將音調(diào)延遲T應(yīng)用到音調(diào)代碼本301以產(chǎn)生音調(diào)代碼向量,以便產(chǎn)生上述定標(biāo)的音調(diào)代碼向量bvT。然后通過(guò)低通濾波器302來(lái)處理所述音調(diào)代碼向量,以產(chǎn)生濾波的音調(diào)代碼向量vT,低通濾波器302的截止頻率是從去復(fù)用器317與索引j相關(guān)聯(lián)地被選擇的。然后,通過(guò)放大器326將被濾波的音調(diào)代碼向量vT放大音調(diào)增益b倍,以產(chǎn)生定標(biāo)的音調(diào)代碼向量bvT。
在這個(gè)說(shuō)明書實(shí)現(xiàn)中,然后通過(guò)下式來(lái)在話音系數(shù)產(chǎn)生器304中計(jì)算系數(shù)αα=0.125(1+rV)它對(duì)應(yīng)于純非話音信號(hào)的值0和純?cè)捯粜盘?hào)的0.25。
因此通過(guò)經(jīng)由革新濾波器305(F(z))過(guò)濾定標(biāo)的革新代碼向量gck來(lái)計(jì)算增強(qiáng)的信號(hào)cf。
通過(guò)加法器320來(lái)計(jì)算增強(qiáng)的激勵(lì)信號(hào)u’為u’=cf+bvT應(yīng)當(dāng)注意,不在編碼器200執(zhí)行這個(gè)處理。因此,必須使用在存儲(chǔ)器303中存儲(chǔ)的沒(méi)有增強(qiáng)的激勵(lì)信號(hào)u的過(guò)去的值來(lái)更新音調(diào)代碼本301的內(nèi)容以保持在編碼器200和解碼器300之間的同步。因此,使用激勵(lì)信號(hào)u來(lái)更新音調(diào)代碼本301的存儲(chǔ)器303,并且在LP合成濾波器306的輸入端使用增強(qiáng)的激勵(lì)信號(hào)u’。
通過(guò)經(jīng)由具有 形式的LP合成濾波器306過(guò)濾增強(qiáng)的激勵(lì)信號(hào)u’來(lái)計(jì)算合成的信號(hào)s’,其中 是在當(dāng)前子幀中的量化的內(nèi)插LP濾波器??梢詮膱D3中看出,來(lái)自去復(fù)用器317的在線325上的量化的內(nèi)插LP系數(shù) 被提供到LP合成濾波器306以因此調(diào)整LP合成濾波器306的參數(shù)。去加重濾波器307是圖2的預(yù)加重濾波器203的翻轉(zhuǎn)。去加重濾波器307的轉(zhuǎn)移函數(shù)由下式給出D(z)=1/(1-μz-1)其中μ是預(yù)加重系數(shù),它具有位于0和1之間的值(典型值是μ=0.7)。也可以使用更高階濾波器。
(b)“引用目的地是www.someretailer.com”。
然而,為了服務(wù)器進(jìn)行引用而將限制條件(b)視為必須符合的條件一般是不正確的,因?yàn)?b)僅是對(duì)進(jìn)行引用的行動(dòng)的約束。例如,行動(dòng)是向目的地www.someretailer.com進(jìn)行引用。而且,進(jìn)行這樣的引用變成對(duì)服務(wù)器而言只在有請(qǐng)求時(shí)才有的義務(wù)。例如,引用必須由傳入請(qǐng)求的事件來(lái)“觸發(fā)”。
有利的是,使用示例性合同表達(dá)語(yǔ)言模型,可以更準(zhǔn)確地規(guī)定引用服務(wù),例如,如下面給出的“在發(fā)生用戶請(qǐng)求時(shí)(E),如果請(qǐng)求是音樂(lè)請(qǐng)求(C),則發(fā)行服務(wù)器(P)有義務(wù)將請(qǐng)求(R)引向www.someretailer.com(A)。”示例性合同表達(dá)語(yǔ)言,例如,有利的是,可以使用XML大綱可擴(kuò)展性機(jī)制,支持可擴(kuò)展性、元素置換組(Element substitution group)、類型置換(Type substitution)、“任何”元素,等等[1][11]。在一個(gè)示例性實(shí)施例中,在表2中示出的可擴(kuò)展元素和類型提供在XrML中未提供的附加元素和類型,但有利的是,在示例性合同表達(dá)語(yǔ)言中是可擴(kuò)展的。
表2可擴(kuò)展元素和類型
對(duì)示例性合同表達(dá)語(yǔ)言的核心元素這樣的擴(kuò)展,可以包括用于那些概念的元素和類型的定義,那些概念一般且廣泛地可應(yīng)用于示例性合同表達(dá)語(yǔ)言使用場(chǎng)合。例如,存在在擴(kuò)展相應(yīng)元素的表3中示出的復(fù)合元素。
幀消除(FER)問(wèn)題的處理一般有兩重(twofold)。首先,當(dāng)被消除的幀指示器到達(dá)時(shí),必須通過(guò)使用在前一個(gè)幀中發(fā)送的信息和通過(guò)估計(jì)在丟失的幀中的信號(hào)演變來(lái)產(chǎn)生丟失的幀。估計(jì)的成功不僅依賴于隱藏策略,而且依賴于在發(fā)生消除的語(yǔ)音信號(hào)中的位置。其次,必須當(dāng)恢復(fù)正常的工作時(shí)、即當(dāng)?shù)谝粋€(gè)好幀在一塊被消除的幀(一個(gè)或多個(gè))后到達(dá)時(shí)保證平滑的過(guò)渡。這不是不重要的任務(wù),因?yàn)檎鎸?shí)的合成和所估計(jì)的合成會(huì)不相同地演化。當(dāng)?shù)谝粋€(gè)好幀到達(dá)時(shí),解碼器于是與編碼器不同步。主要原因是低比特率的編碼器依賴于音調(diào)預(yù)測(cè),并且在被消除的幀期間,音調(diào)預(yù)測(cè)器的存儲(chǔ)器不再與在編碼器的那個(gè)相同。當(dāng)許多連續(xù)的幀被消除時(shí)所述問(wèn)題被放大。關(guān)于隱藏,通常的處理恢復(fù)的困難度依賴于發(fā)生消除的語(yǔ)音信號(hào)的類型。
可以通過(guò)將通常處理的隱藏和恢復(fù)(進(jìn)一步的恢復(fù))適配于發(fā)生消除的語(yǔ)音信號(hào)的類型來(lái)大大地降低幀消除的負(fù)面影響。為此,需要將每個(gè)語(yǔ)音幀分類。這種分類可以在編碼器進(jìn)行和被發(fā)送?;蛘?,可以在解碼器估計(jì)它。
對(duì)于最佳的隱藏和恢復(fù),存在必須小心地控制的語(yǔ)音信號(hào)的較少的臨界特性。這些臨界特性是信號(hào)能量或幅度、周期性的數(shù)量、譜包絡(luò)和音調(diào)周期。在有聲的語(yǔ)音恢復(fù)的情況下,可以通過(guò)相位控制來(lái)實(shí)現(xiàn)進(jìn)一步的改善。使用比特率中的小提高,可以量化和發(fā)送少數(shù)補(bǔ)充參數(shù)以獲得較好的控制。如果不可獲得附加的帶寬,則可以在解碼器估計(jì)所述參數(shù)。在控制這些參數(shù)的情況下,可以大大地改善幀消除隱藏和恢復(fù),尤其是通過(guò)改善在編碼器將被解碼的信號(hào)向?qū)嶋H信號(hào)的匯聚和減輕當(dāng)恢復(fù)通常處理時(shí)在編碼器和解碼器之間的不匹配的效果。
在本發(fā)明的當(dāng)前說(shuō)明書實(shí)施例中,公開了用于有效的幀消除隱藏的方法和用于提取和發(fā)送將在解碼器改善在被消除的幀之后的幀中的性能和匯聚的參數(shù)的方法。這些參數(shù)包括下面的兩個(gè)或多個(gè)幀分類、能量、話音信息和相位信息。而且,公開了用于如果不可能發(fā)送額外的比特則在解碼器提取這樣的參數(shù)的方法。最后,也公開了用于改善在被消除的幀之后的好幀中的解碼器匯聚的方法。
按照當(dāng)前的說(shuō)明性實(shí)施例的幀消除隱藏技術(shù)已經(jīng)被應(yīng)用到上述的AMR-WB編碼解碼器。這種編碼解碼器將作為示例框架(framework),用于實(shí)現(xiàn)在下面的說(shuō)明中的FER隱藏方法。如上所述,向編碼解碼器的輸入語(yǔ)音信號(hào)212具有16kHz的采樣頻率,但是在進(jìn)一步處理之前它被下采樣到12.8kHz的采樣頻率。在當(dāng)前的說(shuō)明性實(shí)施例中,對(duì)于下采樣的信號(hào)進(jìn)行FER處理。
圖4給出了AMR-WB編碼器400的簡(jiǎn)化方框圖。在這個(gè)簡(jiǎn)化方框圖中,下采樣器201、高通濾波器202和預(yù)加重濾波器203在預(yù)處理模塊401中被編組在一起。而且,閉環(huán)搜索模塊207、零輸入響應(yīng)計(jì)算器208、脈沖響應(yīng)計(jì)算器209、革新激勵(lì)搜索模塊210和存儲(chǔ)器更新模塊211被編組在閉環(huán)音調(diào)和革新代碼本搜索模塊402中。進(jìn)行這個(gè)編組來(lái)簡(jiǎn)化引入與本發(fā)明的說(shuō)明性實(shí)施例相關(guān)聯(lián)的新模塊。
圖5是增加了與本發(fā)明的說(shuō)明性實(shí)施例相關(guān)聯(lián)的模塊的、圖4的方框圖的擴(kuò)展。在這些被增加的模塊500-507中,附加的參數(shù)被計(jì)算、量化和發(fā)送以便改善在消除的幀后的解碼器的FER隱藏和匯聚和恢復(fù)。在當(dāng)前的說(shuō)明性實(shí)施例中,這些參數(shù)包括信號(hào)分類、能量和相位信息(在幀中的第一聲門脈沖的估計(jì)位置)。
在接著的部分中,參照?qǐng)D5,這些附加參數(shù)的計(jì)算和量化將詳細(xì)地被給出和變得更加清楚。在這些參數(shù)中,信號(hào)分類將被更詳細(xì)地處理。在隨后的步驟中,將說(shuō)明使用這些附加參數(shù)的有效FER隱藏以改善匯聚。
用于FER隱藏和恢復(fù)的信號(hào)分類使用用于在提供被消除的幀的情況下的信號(hào)重建的語(yǔ)音的分類后面的基本思想包括這樣的事實(shí)理想的隱藏策略對(duì)于準(zhǔn)靜止語(yǔ)音分段和對(duì)于具有快速改變的特性的語(yǔ)音分段是不同的。雖然在非靜止語(yǔ)音分段中的被消除的幀的最佳處理可以被總結(jié)為對(duì)于環(huán)境噪音特性的語(yǔ)音編碼參數(shù)的迅速匯聚,在準(zhǔn)靜止信號(hào)的情況下,語(yǔ)音編碼參數(shù)在被抑制之前的幾個(gè)相鄰的被消除幀期間不大幅度地改變,并且可以被保持實(shí)際上不變。而且,用于在被消除的幀塊后的信號(hào)恢復(fù)的最佳方法隨著語(yǔ)音信號(hào)的分類而改變。
語(yǔ)音信號(hào)可以大致分類為有聲、無(wú)聲和暫停。有聲語(yǔ)音包括大量的(important amount)周期分量,并且可以被進(jìn)一步分類為下面的類別有聲開始、有聲分段、有聲過(guò)渡和有聲補(bǔ)償(offet)。有聲開始被定義為在暫?;驘o(wú)聲分段之后的有聲語(yǔ)音分段的開始。在有聲分段期間,語(yǔ)音信號(hào)參數(shù)(譜包絡(luò)、音調(diào)周期、周期性和非周期性分量的比率、能量)從幀到幀緩慢改變。有聲過(guò)渡的特征在于有聲語(yǔ)音的迅速變化,諸如在元音之間的過(guò)渡。有聲補(bǔ)償?shù)奶卣髟谟谠谟新暦侄蔚慕Y(jié)尾的能量和語(yǔ)音的逐漸降低。
信號(hào)的無(wú)聲部分的特征在于丟失了周期性分量,并且可以被進(jìn)一步分類為其中能量和頻譜迅速改變的不穩(wěn)定的幀和其中這些參數(shù)保持相對(duì)穩(wěn)定的穩(wěn)定幀。剩余的幀被分類為靜默。靜默幀包括所有沒(méi)有有效語(yǔ)音的幀,也即僅僅噪音的幀——如果存在背景噪音的話。
不是所有的上述類別需要獨(dú)立的處理。因此,為了誤差隱藏技術(shù)的目的,一些信號(hào)類別被編組在一起。
在編碼器的分類當(dāng)在比特流中存在可用的帶寬以包括分類信息時(shí),可以在編碼器進(jìn)行分類。這具有幾個(gè)優(yōu)點(diǎn)。最重要的是在語(yǔ)音編碼器中經(jīng)常存在先行部分(lookahead)。所述先行部分使得可以估計(jì)在隨后的幀中的信號(hào)的演變,并且因此可以通過(guò)考慮未來(lái)的信號(hào)行為來(lái)進(jìn)行分類。一般,先行部分越長(zhǎng),分類會(huì)越好。另一個(gè)優(yōu)點(diǎn)是復(fù)雜性降低,因?yàn)閹[藏所需要的多數(shù)信號(hào)處理無(wú)論如何對(duì)于語(yǔ)音編碼都是需要的。最后,也存在工作于原始信號(hào)而不是合成信號(hào)的優(yōu)點(diǎn)。
在考慮到隱藏和恢復(fù)策略的情況下進(jìn)行幀分類。換句話說(shuō),以下述方式來(lái)分類任何幀如果隨后的幀丟失,則所述隱藏是最佳的,或者如果前一個(gè)幀丟失,則所述恢復(fù)是最佳的。不必發(fā)送用于FER處理的一些類別,因?yàn)樗鼈兛梢员粚?dǎo)出而沒(méi)有在解碼器的模糊性。在當(dāng)前的說(shuō)明性實(shí)施例中,使用5種(5)明顯不同的類別,并且被定義如下·無(wú)聲類別包括所有無(wú)聲語(yǔ)音幀和所有沒(méi)有主動(dòng)語(yǔ)音(active speech)的幀。有聲補(bǔ)償幀如果其結(jié)尾趨向于無(wú)聲也可以被分類為無(wú)聲,并且設(shè)計(jì)用于無(wú)聲幀的隱藏可以被用于隨后的幀——如果它被丟失的話。
·無(wú)聲過(guò)渡類別包括在結(jié)尾具有可能的有聲開始的無(wú)聲幀。但是所述開始仍然太短或沒(méi)有足夠良好地被建立以使用設(shè)計(jì)用于有聲幀的隱藏。
無(wú)聲過(guò)渡類別只能夠跟隨被分類為無(wú)聲或無(wú)聲過(guò)渡的幀。
·有聲過(guò)渡類別包括具有相對(duì)較弱的有聲特性的有聲幀。通常是具有快速改變的特性(在元音之間的過(guò)渡)的有聲幀或持續(xù)整個(gè)幀的有聲補(bǔ)償。有聲過(guò)渡類別只能夠跟隨被分類為有聲過(guò)渡、有聲或開始的幀。
·有聲類別包括具有穩(wěn)定特性的有聲幀。這個(gè)類別只能夠跟隨被分類為有聲過(guò)渡、有聲或開始的幀。
·開始類別包括跟隨一個(gè)被分類為無(wú)聲或無(wú)聲過(guò)渡的幀的、具有穩(wěn)定特性的所有有聲幀。被分類為開始的幀對(duì)應(yīng)于這樣的有聲開始幀,其中開始已經(jīng)被足夠良好地建立,以便供被設(shè)計(jì)用于被丟失的有聲幀的隱藏使用。用在開始類別之后的幀的消除的隱藏技術(shù)與在有聲類別之后的相同。差別在于恢復(fù)策略。如果丟失了一個(gè)開始類別的幀(即,一個(gè)有聲的好幀在消除之后到達(dá),但是在所述消除之前的最后一個(gè)好幀是無(wú)聲的),則可以使用特殊技術(shù)來(lái)人為地重建被丟失的開始??梢栽趫D6中看到這個(gè)情形。在下面的說(shuō)明中更詳細(xì)地描述了人為的開始重建技術(shù)。另一方面,如果在一個(gè)消除后一個(gè)開始好幀到達(dá),并且在所述消除之前的最后的好幀是無(wú)聲的,則不需要這種特殊處理,因?yàn)樗鲩_始還沒(méi)有被丟失(還沒(méi)有在被丟失的幀中)。
圖7中給出了分類狀態(tài)圖。如果可用的帶寬是足夠的,則在編碼器進(jìn)行分類并且使用2個(gè)比特發(fā)送。從圖7可以看出,無(wú)聲過(guò)渡類別和有聲過(guò)渡類別在它們可以在解碼器不模糊地被區(qū)別時(shí)可以被編組在一起(無(wú)聲過(guò)渡只能夠跟隨無(wú)聲或無(wú)聲過(guò)渡幀,有聲過(guò)渡只能夠跟隨僅開始、有聲或有聲過(guò)渡幀)。下面的參數(shù)用于分類歸一化相關(guān)性rX、譜傾斜量度et、信號(hào)噪聲比snr、音調(diào)穩(wěn)定性計(jì)數(shù)器pc、在當(dāng)前幀結(jié)尾的信號(hào)的相對(duì)幀能量ES和零交叉計(jì)數(shù)器zc??梢栽谙旅娴脑敿?xì)分析中看出,這些參數(shù)的計(jì)算盡可能使用可用的先行部分,以便也在隨后的幀中考慮語(yǔ)音信號(hào)的行為。
歸一化相關(guān)性rX被計(jì)算作為圖5的開環(huán)音調(diào)搜索模塊206的一部分。這個(gè)模塊206通常每10毫秒輸出開環(huán)音調(diào)估計(jì)(每個(gè)幀兩次)。在此,它也被用于輸出歸一化相關(guān)性量度。這些歸一化的相關(guān)性針對(duì)在開環(huán)音調(diào)延遲的當(dāng)前的加權(quán)語(yǔ)音信號(hào)sw(n)和過(guò)去的加權(quán)語(yǔ)音信號(hào)而被計(jì)算。為了降低復(fù)雜性,加權(quán)語(yǔ)音信號(hào)sw(n)在開環(huán)音調(diào)分析之前被以因子2下采樣到采樣頻率6400Hz[3GPP TS 26V.190,“AMR Wideband Speech CodecTranscoding Functions,”3GPP Technical Specification(3GPP TS 26V.190,“AMR寬帶語(yǔ)音編碼解碼器代碼轉(zhuǎn)換功能”,3GPP技術(shù)規(guī)范)]。平均相關(guān)rX被定義為rx=0.5(rx(1)+rx(2))(1)其中rx(1)、rx(2)分別是當(dāng)前幀的第二部分和先行部分的歸一化相關(guān)性。在本說(shuō)明性實(shí)施例中,使用13毫秒的先行部分,而不像AMR-WB標(biāo)準(zhǔn)那樣使用5毫秒的先行部分。歸一化的相關(guān)性rx(k)被計(jì)算如下rx(k)=rxyrxx,ryy---(2)]]>其中rxy=Σi=0Lk-1x(tk+j)·x(tk+i-pk)]]>rxx=Σi=0Lk-1x2(tk+i)]]>ryy=Σi=0Lk-1x2(tk+i-pk)]]>使用加權(quán)的語(yǔ)音信號(hào)sw(n)來(lái)計(jì)算相關(guān)性rx(k)。tk時(shí)刻與當(dāng)前幀開始相關(guān)聯(lián),并且在6.4kHz的采樣率或頻率時(shí)分別等于64和128個(gè)采樣(10和20毫秒)。值pk=TOL是所選擇的開環(huán)音調(diào)估計(jì)。自相關(guān)計(jì)算的長(zhǎng)度Lk依賴于音調(diào)周期。Lk的值被匯總?cè)缦?對(duì)于6.4kHz的采樣率)Lk=40個(gè)采樣對(duì)于pk≤31個(gè)采樣Lk=62個(gè)采樣對(duì)于pk≤61個(gè)采樣Lk=115個(gè)采樣對(duì)于pk>61個(gè)采樣這些長(zhǎng)度保證相關(guān)向量長(zhǎng)度包括至少一個(gè)音調(diào)周期,它有助于強(qiáng)壯的開環(huán)音調(diào)檢測(cè)。對(duì)于長(zhǎng)的音調(diào)周期(pk>61個(gè)采樣),rx(1)和rx(2)是相同的,即僅僅計(jì)算一個(gè)相關(guān)性,因?yàn)橄嚓P(guān)聯(lián)的向量足夠長(zhǎng),以至于不再需要關(guān)于對(duì)先行部分的分析。
譜傾斜參數(shù)et包括關(guān)于能量的頻率分布的信息。在本說(shuō)明性實(shí)施例中,譜傾斜被估計(jì)為在集中在低頻中的能量和集中在高頻中的能量之間的比率。但是,也可以以不同的方式估計(jì)它,諸如在語(yǔ)音信號(hào)的兩個(gè)第一自相關(guān)系數(shù)之間的比率。
使用離散傅立葉變換來(lái)在圖5的譜分析和頻譜能量估計(jì)模塊500中進(jìn)行譜分析。每個(gè)幀進(jìn)行兩次頻率分析和傾斜計(jì)算。以50%的重疊來(lái)使用256個(gè)點(diǎn)的快速傅立葉變換(FFT)。布置分析窗口,以便開發(fā)所有的先行部分。在本說(shuō)明性實(shí)施例中,在當(dāng)前幀的開始的24個(gè)采樣之后,布置第一窗口的開始。128個(gè)采樣后布置第二個(gè)窗口??梢允褂貌煌拇翱趤?lái)加權(quán)輸入信號(hào)以用于頻率分析。在本說(shuō)明性實(shí)施例中已經(jīng)使用了漢明窗口的平方根(它等同于正弦窗口)。這個(gè)窗口特別適用于重疊相加的方法。因此,這種特定的譜分析可以用于基于譜相減和重疊相加分析/合成的選用噪音抑制算法中。
在圖5的模塊500中按照臨界頻帶來(lái)計(jì)算高頻和低頻中的能量。在當(dāng)前的說(shuō)明性實(shí)施例中,考慮下述數(shù)量的每個(gè)臨界頻帶[J.D.Johnston,“TransformCoding of Audio Signals Using Perceptual Noise Criteria,”IEEE Jour.on SelectedAreas in Communications,vol.6,no.2,pp.314-323(J.D.Johnston,“使用感覺(jué)噪音標(biāo)準(zhǔn)的音頻信號(hào)的變換編碼”,關(guān)于在通信中的所選擇區(qū)域的IEEE會(huì)刊,第6卷、第2期,第314-323頁(yè))]臨界頻帶={100.0,200.0,300.0,400.0,510.0,630.0,770.0,920.0,1080.0,1270.0,1480.0,1720.0,2000.0,2320.0,2700.0,3150.0,3700.0,4400.0,5300.0,6250.0}Hz。
在模塊500中計(jì)算在高頻中的能量作為最后兩個(gè)臨界頻帶的能量的平均值Eh=0.5(e(18)+e(19))(3)其中臨界頻帶能量e(i)被計(jì)算為被接收器(bin)的數(shù)量平均的、在臨界頻帶內(nèi)的接收器能量(bin energy)的和。
在低頻中的能量被計(jì)算為在前10個(gè)臨界頻帶中的能量的平均值。中間臨界頻帶已經(jīng)被從計(jì)算中排除,以改善在低頻中集中有高能量的幀(一般有聲)和在高頻中集中有高能量的幀(一般無(wú)聲)之間的區(qū)別。其間,能量?jī)?nèi)容不是用于任何類別的特性,并且會(huì)增加對(duì)判定的混淆。
在模塊500中,對(duì)于長(zhǎng)音調(diào)周期和短音調(diào)周期不同地計(jì)算在低頻的能量。對(duì)于有聲的女子語(yǔ)音分段,可以開發(fā)頻譜的諧波結(jié)構(gòu)以提高有聲-無(wú)聲的區(qū)別。因此,對(duì)于短音調(diào)周期,按照接收器(bin-wise)來(lái)計(jì)算El,并且在求和中僅僅考慮足夠接近語(yǔ)音諧波的頻率接收器,即E‾l=1cnt·Σi=024eb(i)---(4)]]>其中,eb(i)是在前25個(gè)頻率接收器中的接收器能量(未考慮DC分量)。注意這25個(gè)接收器對(duì)應(yīng)于前10個(gè)臨界頻帶。在上述的求和中,僅僅與比特定頻率門限更接近最近的諧波的接收器相關(guān)聯(lián)的項(xiàng)是非零的。計(jì)數(shù)器cnt等于那些非零項(xiàng)的數(shù)量。用于要被包括在所述和中的接收器的門限已經(jīng)被固定到50Hz,即僅僅考慮比50Hz更接近最近的諧波的接收器。因此,如果所述結(jié)構(gòu)是在低頻的諧波,則僅僅高能量項(xiàng)將被包括在所述和中。另一方面,如果所述結(jié)構(gòu)不是諧波的,則項(xiàng)的選擇將是隨意的,并且所述和將更小。因此,可以檢測(cè)即使在低頻中集中有高能量?jī)?nèi)容的無(wú)聲聲音。這種處理不能對(duì)于較長(zhǎng)的音調(diào)周期進(jìn)行,因?yàn)轭l率的分辨率不夠。門限音調(diào)值是對(duì)應(yīng)于100Hz的128個(gè)采樣。它表示對(duì)于大于128個(gè)采樣的音調(diào)周期和對(duì)于先驗(yàn)的(priori)無(wú)聲聲音(即當(dāng)rx+re<0.6時(shí)),低頻能量估計(jì)在每個(gè)臨界頻帶進(jìn)行,并且被計(jì)算為E‾l=110·Σi=09e(i)---(5)]]>在噪音估計(jì)和歸一化的相關(guān)性校正模塊501中計(jì)算的值re是在存在背景噪音的情況下由于下述原因而被加到所述歸一化相關(guān)性的校正值。在存在背景噪音的情況下,平均歸一化的相關(guān)性降低。但是,為了信號(hào)分類的目的,這種降低不應(yīng)當(dāng)影響有聲-無(wú)聲的確定。已經(jīng)發(fā)現(xiàn)在這個(gè)降低re和dB的總的背景噪音能量之間的關(guān)聯(lián)性大致是指數(shù)的,并且可以使用下面的關(guān)系式來(lái)表達(dá)re=2.4492·10-4·e0.1596·NdB-0.022其中NdB表示為NdB=10·log10(120Σi=1019n(i))-gdB]]>在此,n(i)是用于以與e(i)相同的方式歸一化的每個(gè)臨界頻帶的噪音能量估計(jì)值,而gdB是對(duì)于噪音降低例程允許的dB的最大噪音抑制水平。值re不允許是負(fù)的。應(yīng)當(dāng)注意,當(dāng)使用好的噪音降低算法并且gdB足夠高時(shí),re實(shí)際上等于零。它僅僅當(dāng)噪音降低被禁止或如果背景噪音水平比最大可允許的降低大得多時(shí)相關(guān)聯(lián)。re的影響可以通過(guò)將這個(gè)項(xiàng)乘以常數(shù)來(lái)被調(diào)整。
最后,通過(guò)從上面計(jì)算的值El和El減去估計(jì)的噪音能量來(lái)獲得結(jié)果產(chǎn)生的低頻和高頻能量。即Eh=Eh-fc·Nh(6)El=El-fc·Nl(7)其中Nh和Nl分別是使用類似于方程(3)和(5)的方程計(jì)算的、在最后兩個(gè)(2)臨界頻帶和前10個(gè)(10)臨界頻帶中的平均噪音能量,fc是校正因子,它被調(diào)整以便這些量度在改變背景噪音水平的情況下保持接近不變。在本說(shuō)明性實(shí)施例中,fc的值已經(jīng)被固定為3。
使用下面的關(guān)系式來(lái)在譜傾斜估計(jì)模塊503中計(jì)算譜傾斜etet=ElEh---(8)]]>并且它在dB域中對(duì)于對(duì)每個(gè)幀執(zhí)行的兩個(gè)(2)頻率分析被平均et=10·log10(et(0)·et(1))信號(hào)噪聲比(SNR)量度開發(fā)下述事實(shí)對(duì)于一般的波形匹配編碼器,SNR對(duì)于有聲聲音很高。必須在編碼器子幀環(huán)的結(jié)尾進(jìn)行snr參數(shù)估計(jì),并且使用下面的關(guān)系式來(lái)在SNR計(jì)算模塊504中計(jì)算snr;snr=ESWEe---(9)]]>其中ESW是來(lái)自感覺(jué)加權(quán)濾波器205的當(dāng)前幀的加權(quán)語(yǔ)音信號(hào)sw(n)的能量,Ee是來(lái)自感覺(jué)加權(quán)濾波器205’的當(dāng)前幀的加權(quán)語(yǔ)音信號(hào)和加權(quán)合成信號(hào)之間的誤差的能量。
音調(diào)穩(wěn)定性計(jì)數(shù)器pc評(píng)估音調(diào)周期的變化。響應(yīng)于如下的開環(huán)音調(diào)估計(jì)而在信號(hào)分類模塊505內(nèi)計(jì)算它pc=|p1-p0|+|p2-p1|(10)值p0、p1、p2對(duì)應(yīng)于由開環(huán)音調(diào)搜索模塊206分別從當(dāng)前幀的前半部分、當(dāng)前幀的后半部分和先行部分計(jì)算的開環(huán)音調(diào)估計(jì)值。
相對(duì)幀能量ES由模塊500計(jì)算作為在以dB的當(dāng)前幀能量及其長(zhǎng)期平均之間的差Es=Ef-Elt其中幀能量Ef被獲得作為對(duì)于每個(gè)幀執(zhí)行的全部?jī)煞N譜分析平均的、臨界頻帶能量的和Ef=10log10(0.5Ef(0)+Ef(1))Ef(j)=Σi=1019e(i)]]>使用下面的關(guān)系式來(lái)在有效語(yǔ)音幀上更新長(zhǎng)期平均能量Elt=0.99Elt+0.01Ef所述最后的參數(shù)是由零交叉計(jì)算模塊508在語(yǔ)音信號(hào)的一個(gè)幀上計(jì)算的零交叉參數(shù)zc。所述幀在當(dāng)前幀的中間開始,并且使用先行部分的2個(gè)(2)子幀。在這個(gè)說(shuō)明性實(shí)施例中,零交叉計(jì)數(shù)器zc計(jì)數(shù)在那個(gè)間隔期間信號(hào)符號(hào)從正向負(fù)改變的次數(shù)。
為了使得分類更強(qiáng)壯,分類參數(shù)被一起考慮,以形成優(yōu)質(zhì)函數(shù)fm。為此,所述分類參數(shù)首先被定標(biāo)在0和1之間,以便對(duì)于無(wú)聲信號(hào)典型的每個(gè)參數(shù)的值轉(zhuǎn)換為0,對(duì)于有聲信號(hào)典型的每個(gè)參數(shù)的值轉(zhuǎn)換為1。在它們之間使用線性函數(shù)。讓我們考慮參數(shù)px,其定標(biāo)的版本是使用ps=kp·px+cp獲得的,并且被夾在0和1之間。對(duì)于每個(gè)參數(shù)已經(jīng)以實(shí)驗(yàn)方式找到了函數(shù)系數(shù)kp和cp,以便由于在提供有FER中使用的隱藏和恢復(fù)技術(shù)而導(dǎo)致的信號(hào)失真最小。在這種說(shuō)明性實(shí)現(xiàn)方式中使用的值被匯總在表2中表2信號(hào)分類參數(shù)和它們各自的定標(biāo)函數(shù)的系數(shù)
所述優(yōu)質(zhì)函數(shù)被定義為fm=17(2·r‾xs+e‾ts+snrs+pcs+Ess+zcs)]]>其中上標(biāo)s指示參數(shù)的定標(biāo)版本。
然后使用所述優(yōu)質(zhì)函數(shù)fm和下述在表3中匯總的規(guī)則來(lái)進(jìn)行分類表3在編碼器的信號(hào)分類規(guī)則
在來(lái)源受控的可變比特率(VBR)編碼器的情況下,信號(hào)分類對(duì)于編碼解碼器操作是固有的。編碼解碼器工作在幾個(gè)比特率,并且使用比率選擇模塊來(lái)根據(jù)語(yǔ)音幀的特性確定用于編碼每個(gè)語(yǔ)音幀的比特率(例如有聲、無(wú)聲、過(guò)渡、背景噪音幀的每個(gè)都以特殊的編碼算法被編碼)。關(guān)于編碼模式、以及因此關(guān)于語(yǔ)音類別的信息已經(jīng)是比特流的隱含部分,因而不必明顯地被發(fā)送來(lái)用于FER處理。這類信息可以隨后用來(lái)重寫上述的分類確定。
在對(duì)于AMR WB編碼解碼器的示例應(yīng)用中,僅僅來(lái)源受控的比率選擇表示話音有效性檢測(cè)(VAD)。這個(gè)VAD標(biāo)記對(duì)于有效語(yǔ)音等于1,對(duì)于靜默等于0。這個(gè)參數(shù)對(duì)于分類有用,因?yàn)槿绻渲凳?,則它直接指示不需要進(jìn)一步的進(jìn)行分類(即,所述幀被直接地被分類為無(wú)聲)。這個(gè)參數(shù)是話音有效性檢測(cè)(VAD)模塊402的輸出。在文獻(xiàn)中存在不同的VAD算法,可以使用任何算法來(lái)用于本發(fā)明。例如,可以使用作為標(biāo)準(zhǔn)G.722.2的一部分的VAD算法[ITU-T Recommendation G.722.2“Wideband coding of speech at around 16kbit/s using Adaptive Multi-Rate Wideband(AMR-WB)”,Geneva,2002(ITU-T推薦內(nèi)容G.722.2“使用自適應(yīng)多速率寬帶(AMR-WB)的在大約16千比特/秒的語(yǔ)音的寬帶編碼”,日內(nèi)瓦,2002)]。在此,所述VAD算法是基于模塊500的譜分析的輸出(基于每個(gè)臨界頻帶的信號(hào)噪聲比)。用于分類目的的VAD與用于編碼目的的在釋放延遲(hangover)上不同。在使用用于沒(méi)有有效語(yǔ)音(靜默或僅僅噪音)的分段的舒適噪音產(chǎn)生(CNG)的語(yǔ)音編碼器中,經(jīng)常在語(yǔ)音突發(fā)后增加釋放延遲(在AMR-WB標(biāo)準(zhǔn)中的CNG是一個(gè)示例[3GPP TS 26.192,“AMR Wideband Speech CodecComfort Noise Aspects”,3GPP Technical Specification(3GPP TS 26.192,“AMR寬帶語(yǔ)音編碼解碼器舒適噪音方面”,3GPP技術(shù)規(guī)范)])。在釋放延遲期間,語(yǔ)音編碼器繼續(xù)被使用,并且系統(tǒng)僅在釋放延遲周期結(jié)束后才轉(zhuǎn)換到CNG。為了FER隱藏的分類的目的,不需要這種高安全性。因此,用于分類的VAD標(biāo)記也在釋放延遲周期期間等于0。
在本說(shuō)明性實(shí)施例中,根據(jù)上述的參數(shù)在模塊505中執(zhí)行分類;即,歸一化的相關(guān)性(或話音信息)rx、譜傾斜et、snr、音調(diào)穩(wěn)定性計(jì)數(shù)器pc、相對(duì)幀能量ES、零交叉比率zc和VAD標(biāo)記。
在解碼器的分類如果應(yīng)用不允許發(fā)送類別信息(沒(méi)有額外的比特能夠被傳送),則仍然可以在解碼器執(zhí)行分類。如上所述,在此的主要缺點(diǎn)是在語(yǔ)音解碼器中一般沒(méi)有可用的先行部分。而且,經(jīng)常需要將解碼器的復(fù)雜度保持有限。
可以通過(guò)估計(jì)合成信號(hào)的話音來(lái)進(jìn)行簡(jiǎn)單的分類。如果我們考慮CELP類型的編碼器的情況,則可以使用在如程(1)中計(jì)算的話音估計(jì)rV。即rv=(Ev-Ec)/(Ev+Ec)其中Ev是定標(biāo)的音調(diào)代碼向量bvT的能量,而Ec是定標(biāo)的革新代碼向量gck的能量。理論上,對(duì)于純有聲信號(hào),rv=1,對(duì)于純無(wú)聲信號(hào),rv=-1。通過(guò)每4個(gè)子幀平均rv值來(lái)進(jìn)行實(shí)際的劃分。結(jié)果產(chǎn)生的系數(shù)frv(每四個(gè)子幀的rv的平均)被使用如下表4在解碼器的信號(hào)劃分規(guī)則
類似于在編碼器的分類,可以在解碼器使用其他參數(shù)來(lái)幫助分類,所述參數(shù)作為L(zhǎng)P濾波器或音調(diào)穩(wěn)定性的參數(shù)。
在來(lái)源受控的可變波特率編碼器的情況下,關(guān)于編碼模式的信息已經(jīng)是比特流的一部分。因此,如果例如使用純無(wú)聲編碼模式,則幀可以自動(dòng)地被分類為無(wú)聲。類似地,如果使用純有聲編碼模式,則幀可以被分類為有聲。
用于FER處理的語(yǔ)音參數(shù)存在必須小心地控制以避免當(dāng)FER發(fā)生時(shí)的惱人的人為效果的少數(shù)臨界參數(shù)。如果可以發(fā)送少數(shù)額外比特,則這些參數(shù)可以在編碼器被估計(jì)、被量化和被發(fā)送。否則,可以在解碼器估計(jì)它們中的一些。這些參數(shù)包括信號(hào)分類、能量信息、相位信息和話音信息。最重要的是精確地控制語(yǔ)音能量。也可以控制相位和語(yǔ)音周期性以進(jìn)一步改善FER隱藏和恢復(fù)。
能量控制的重要性主要在被消除的幀塊之后恢復(fù)通常操作的時(shí)候顯示出來(lái)。因?yàn)槎鄶?shù)語(yǔ)音編碼器使用預(yù)測(cè),因此不能在解碼器適當(dāng)?shù)毓烙?jì)正確的能量。在有聲的語(yǔ)音分段中,不正確的能量會(huì)持續(xù)幾個(gè)連續(xù)幀,這尤其是當(dāng)這個(gè)不正確的能量提高時(shí)很惱人。
即使由于長(zhǎng)期預(yù)測(cè)(音調(diào)預(yù)測(cè))而導(dǎo)致能量控制對(duì)于有聲語(yǔ)音最重要,它對(duì)于無(wú)聲語(yǔ)音也很重要。其原因是在CELP類型的編碼器中經(jīng)常使用的革新增益量化器的預(yù)測(cè)。在無(wú)聲分段期間的錯(cuò)誤能量可以引起惱人的高頻波動(dòng)。
可以主要依賴于可用帶寬而以幾種方式進(jìn)行相位控制。在我們的實(shí)現(xiàn)方式中,通過(guò)搜索關(guān)于聲門脈沖位置的大致信息來(lái)在被丟失的有聲開始期間實(shí)現(xiàn)簡(jiǎn)單的相位控制。
因此,除了在前一個(gè)部分中討論的信號(hào)分類信息之外,要發(fā)送的最重要信息是關(guān)于信號(hào)能量和在幀中的聲門脈沖的位置(相位信息)的信息。如果可用足夠的帶寬,則也可以發(fā)送話音信息。
能量信息可以在LP殘余域或者在語(yǔ)音信號(hào)域中估計(jì)和發(fā)送能量信息。在殘余域中發(fā)送所述信息具有缺點(diǎn)沒(méi)有考慮LP合成濾波器的影響。這在幾個(gè)丟失的有聲幀后的有聲恢復(fù)的情況下尤其棘手(當(dāng)在有聲語(yǔ)音分段期間發(fā)生FER時(shí))。當(dāng)FER在有聲幀后到達(dá)時(shí),在使用一些衰減策略的隱藏期間通常使用最后的好幀的激勵(lì)。當(dāng)新的LP合成濾波器在消除后到達(dá)第一個(gè)好幀時(shí),會(huì)在LP合成濾波器的激勵(lì)能量和增益之間有不匹配。新的合成濾波器可以產(chǎn)生具有與最后的合成的消除幀的能量以及與原始信號(hào)能量大大不同的能量的合成信號(hào)。為此,在信號(hào)域中計(jì)算和量化能量。
在能量估計(jì)和量化模塊506中計(jì)算和量化能量Eq。已經(jīng)發(fā)現(xiàn),6個(gè)比特足夠發(fā)送所述能量。但是,如果沒(méi)有足夠的比特,則可以降低比特的數(shù)量而沒(méi)有大的影響。在本優(yōu)選實(shí)施例中,在步長(zhǎng)(step)為1.58dB的-15dB到83dB的范圍中使用6比特的均勻量化器。量化指數(shù)由下式的整數(shù)部分給出i=10log10(E+0.001)+151.58---(15)]]>其中E是用于被分類為有聲或開始的幀的信號(hào)能量的最大值或用于其他幀的每個(gè)采樣的平均能量。對(duì)于有聲或開始幀,在幀的結(jié)尾與音調(diào)同步地計(jì)算信號(hào)能量的最大值如下E=maxi=L-tEL-1(s2(i))---(16)]]>其中L是幀長(zhǎng)度,信號(hào)s(i)表示語(yǔ)音信號(hào)(或者如果使用噪音抑制則是去除噪音的語(yǔ)音信號(hào))。在這個(gè)說(shuō)明性實(shí)施例中,s(i)表示在下采樣到12.8kHz和預(yù)處理后的輸入信號(hào)。如果音調(diào)延遲大于63個(gè)采樣,則tE等于最后的子幀的舍入的閉環(huán)音調(diào)時(shí)滯。如果音調(diào)延遲小于64個(gè)采樣,則tE被設(shè)置為最后的子幀的舍入的閉環(huán)音調(diào)時(shí)滯的兩倍。
對(duì)于其他類別,E是當(dāng)前幀的后半部分的每個(gè)采樣的平均能量,即tE被設(shè)置為L(zhǎng)/2,而E被計(jì)算為E=1tEΣi=L-tEL-1s2(i)---(17)]]>相位控制信息由于與在前述部分中所述的類似的原因,在被丟失的有聲語(yǔ)音的分段后恢復(fù)的同時(shí),相位控制特別重要。在被消除的幀的塊后,解碼器存儲(chǔ)器變得與編碼器存儲(chǔ)器不同步。為了重新同步解碼器,可以根據(jù)可用的帶寬來(lái)發(fā)送一些相位信息。在所述的說(shuō)明性實(shí)現(xiàn)方式中,發(fā)送在幀中第一聲門脈沖的大致位置。這個(gè)信息然后被用于在被丟失的有聲開始后的恢復(fù),如下所述。
設(shè)T0是第一子幀的舍入的閉環(huán)音調(diào)時(shí)滯。第一聲門脈沖搜索和量化模塊507通過(guò)查找具有最大幅度的采樣來(lái)搜索在幀的T0個(gè)第一采樣中的第一聲門脈沖τ的位置。當(dāng)在低通濾波殘余信號(hào)上測(cè)量第一聲門脈沖的位置時(shí)獲得最佳結(jié)果。
以下述方式來(lái)使用6比特編碼第一聲門脈沖的位置。被用于編碼第一聲門脈沖的位置的精度依賴于第一子幀T0的閉環(huán)音調(diào)值。這是可能的,因?yàn)檫@個(gè)值被編碼器和解碼器都知道,并且不在一個(gè)或幾個(gè)幀丟失后遭受誤差傳播。當(dāng)T0小于64時(shí),直接以一個(gè)采樣的精度來(lái)編碼相對(duì)于幀的開始的第一聲門脈沖的位置。當(dāng)64=T0<128時(shí),通過(guò)使用簡(jiǎn)單的整數(shù)除法、即τ/2,以兩個(gè)采樣的精度來(lái)編碼相對(duì)于幀的開始的第一聲門脈沖的位置。當(dāng)T0=128時(shí),通過(guò)進(jìn)一步將τ除以2以四個(gè)采樣的精度來(lái)編碼相對(duì)于幀的開始的第一聲門脈沖的位置。在解碼器進(jìn)行反向程序。如果T0<64,則原樣使用所接收的量化位置。如果64=T0<128,則所接收的量化位置被乘以2并且遞增1。如果T0=128,則所接收的量化位置被乘以4并且遞增2(遞增2導(dǎo)致不均勻分布的量化誤差)。
按照其中編碼第一聲門脈沖的形狀的本發(fā)明的另一個(gè)實(shí)施例,通過(guò)在殘余信號(hào)和可能的脈沖形狀、符號(hào)(正或負(fù))和位置之間的相關(guān)性分析來(lái)確定第一聲門脈沖的位置??梢詮脑诰幋a器和解碼器都知道的脈沖形狀的代碼本來(lái)獲得脈沖形狀,這種方法被本領(lǐng)域內(nèi)的普通技術(shù)人員公知為向量量化。然后編碼和向解碼器發(fā)送第一聲門脈沖的形狀、符號(hào)和幅度。
周期性信息在存在足夠的帶寬的情況下,周期性信息或話音信息可以被計(jì)算和發(fā)送,并且在解碼器被使用來(lái)改善幀消除隱藏。根據(jù)歸一化的相關(guān)性來(lái)估計(jì)話音信息。它可以用4個(gè)比特非常精確地被編碼,但是,如果必要的話,3個(gè)甚至2個(gè)比特也將足夠。所述話音信息一般僅僅是具有一些周期性分量的幀所需要的,并且對(duì)于高度有聲的幀就需要更好的話音分辨率。歸一化相關(guān)性在方程(2)中給出,并且它被用作對(duì)于話音信息的指示器。它在第一聲門脈沖搜索和量化模塊507中被量化。在本說(shuō)明性實(shí)施例中,已經(jīng)使用按照段的(piece-wise)線性量化器來(lái)編碼所述話音信息如下i=rx(2)-0.650.03+0.5,]]>對(duì)于rx(2)<0.92 (18)i=9+rx(2)-0.920.01+0.5,]]>對(duì)于rx(2)≥0.92 (19)再次,i的整數(shù)部分被編碼和發(fā)送。相關(guān)性rx(2)與在方程(1)中具有相同的含義。在方程(18)中,話音在0.65和0.89之間以0.03的步長(zhǎng)被線性量化。在方程(19)中,話音在0.92和0.98之間以0.01的步長(zhǎng)被線性量化。
如果需要較大的量化范圍,則可以使用下面的線性量化i=r‾x-0.40.04+0.5---(20)]]>這個(gè)方程在0.4和1的范圍里以0.04的步長(zhǎng)量化話音。在方程(2a)中定義相關(guān)性rx。
然后方程(18)和(19)或方程(20)被用在解碼器中以計(jì)算rx(2)或rx。讓我們稱這個(gè)量化的歸一化相關(guān)性為rq。如果不能發(fā)送話音,則可以使用來(lái)自方程(2a)的話音系數(shù)通過(guò)將話音映射在從0到1的范圍內(nèi)來(lái)估計(jì)它。
Rq=0.5·(f+1)(21)被消除的幀的處理在本說(shuō)明性實(shí)施例中的FER隱藏技術(shù)被演示在ACELP編碼器上。但是它們可以容易地應(yīng)用到任何語(yǔ)音編碼解碼器,其中通過(guò)經(jīng)由LP合成濾波器濾波激勵(lì)信號(hào)來(lái)產(chǎn)生合成信號(hào)。所述隱藏策略可以被總結(jié)為信號(hào)能量和譜包絡(luò)向背景噪音的被估計(jì)參數(shù)的匯聚。信號(hào)的周期性被匯聚為0。匯聚的速度依賴于最后的好的接收幀類的參數(shù)和連續(xù)的被消除幀的數(shù)量,并且被衰減系數(shù)α控制。系數(shù)α還依賴于用于無(wú)聲幀的LP濾波器的穩(wěn)定性。一般,如果所述最后的好的接收幀在穩(wěn)定的分段中,則所述匯聚慢,如果所述幀在過(guò)渡分段中則所述匯聚快。α的值被匯總在表5中。
表5 FER隱藏衰減系數(shù)α的值
根據(jù)在相鄰的LP濾波器之間的距離量度來(lái)計(jì)算穩(wěn)定性系數(shù)θ。在此,所述系數(shù)θ與ISF(導(dǎo)抗譜頻率)距離量度相關(guān)聯(lián),并且它被約束為0≤θ≤1,較大的θ值對(duì)應(yīng)于更穩(wěn)定的信號(hào)。這導(dǎo)致當(dāng)在穩(wěn)定的無(wú)聲分段中發(fā)生分離的幀消除時(shí)降低能量和譜包絡(luò)波動(dòng)。
信號(hào)類在消除幀的處理期間保持不變,即所述類保持與在最后的好的接收幀中相同。
激勵(lì)的周期性部分的構(gòu)造對(duì)于跟隨正確地接收的無(wú)聲幀的消除幀的隱藏,不產(chǎn)生激勵(lì)信號(hào)的周期性部分。對(duì)于跟隨除了無(wú)聲之外的正確接收的幀的消除幀的隱藏,通過(guò)重復(fù)前一個(gè)幀的最后音調(diào)周期來(lái)構(gòu)造激勵(lì)信號(hào)的周期性部分。如果是在好幀之后的第一個(gè)消除幀的情況,則這個(gè)音調(diào)脈沖首先被低通濾波。所使用的濾波器是簡(jiǎn)單的3抽頭線性相位FIR濾波器,它具有等于0.18、0.64和0.18的濾波系數(shù)。如果可用話音信息,則也可以動(dòng)態(tài)的選擇所述濾波器,其截止頻率依賴于話音。
用于選擇最后的音調(diào)脈沖并且因此在隱藏期間被使用的音調(diào)周期Tc被定義,以便可以避免或降低音調(diào)倍數(shù)或子倍數(shù)。下面的邏輯用于確定音調(diào)周期Tc。
如果((T3<1.8Ts)并且(T3>0.6Ts))或(Tcnt=30),則Tc=T3,否則Tc=Ts。在此,T3是最后的好的接收幀的第四個(gè)子幀的舍入音調(diào)周期,并且Ts是具有相干的(coherent)音調(diào)估計(jì)的最后的好的穩(wěn)定的有聲幀的第四個(gè)子幀的舍入音調(diào)周期。在此將穩(wěn)定的有聲的幀定義為有聲幀,其前有一個(gè)有聲類型(有聲過(guò)渡、有聲、開始)的幀。通過(guò)檢查是否閉環(huán)音調(diào)估計(jì)合理地接近來(lái)在這種實(shí)現(xiàn)方式中驗(yàn)證音調(diào)的相干性,即通過(guò)檢查是否在前一個(gè)幀的最后的子幀音調(diào)、第二子幀音調(diào)和最后的子幀音調(diào)之間的比率在間隔(0.7,1.4)內(nèi)。
音調(diào)周期Tc的這個(gè)確定表示,如果在最后的好幀的結(jié)尾的音調(diào)和在最后的穩(wěn)定幀的音調(diào)彼此接近,則使用最后的好幀的音調(diào)。否則,這個(gè)音調(diào)將被當(dāng)作不可靠,并且取而代之的使用所述最后穩(wěn)定幀的音調(diào)來(lái)避免錯(cuò)誤的音調(diào)估計(jì)在有聲開始的影響。但是這個(gè)邏輯僅僅當(dāng)所述最后的穩(wěn)定分段過(guò)去不太遠(yuǎn)時(shí)有意義。因此,定義計(jì)數(shù)器Tcnt,它限制所述最后穩(wěn)定分段的影響的到達(dá)范圍。如果Tcnt大于或等于30,即如果自從最后的Ts更新起有至少30個(gè)幀,則系統(tǒng)地使用所述最后的好幀音調(diào)。每次檢測(cè)到穩(wěn)定分段時(shí),Tcnt被復(fù)位為0并更新Ts。然后在整個(gè)消除塊的隱藏期間保持周期Tc不變。
在前一個(gè)幀的激勵(lì)的最后脈沖用于周期性部分的構(gòu)建時(shí),其增益在被隱藏的幀的開始大致正確,并且可以被設(shè)置為1。所述增益然后在逐個(gè)采樣的基礎(chǔ)上在整個(gè)幀中線性衰減,以獲得在幀的結(jié)尾的α的值。
α的值對(duì)應(yīng)于表5,除了它們用于在有聲或開始幀后的消除以考慮有聲分段的能量演化而被修改之外。通過(guò)使用所述最后的好幀的每個(gè)子幀的音調(diào)激勵(lì)增益值,可以在一定程度上推斷這種演化。一般,如果這些增益大于1,則信號(hào)能量增加,如果它們小于1,則能量降低。α因此乘以校正系數(shù)fb,fb被計(jì)算如下fb=0.1b(0)+0.2b(1)+0.3b(2)+0.4b(3)---(23)]]>其中b(0)、b(1)、b(2)和b(3)是最后正確地接收的幀的四個(gè)子幀的音調(diào)增益。fb的值在被用于定標(biāo)激勵(lì)的周期性部分之前被修剪到(clip)0.98和0.85之間。以這種方式,避免了大的能量提高和減少。
對(duì)于跟隨除了無(wú)聲的正確接收的幀的消除的幀,激勵(lì)緩沖器僅僅用這個(gè)激勵(lì)的周期性部分來(lái)更新。這個(gè)更新將用于構(gòu)建在下一個(gè)幀中的音調(diào)代碼本的激勵(lì)。
激勵(lì)的隨意部分的構(gòu)建隨意地產(chǎn)生激勵(lì)信號(hào)的革新(非周期性)部分。它可以被產(chǎn)生為隨意噪音或通過(guò)使用具有隨意產(chǎn)生的向量指數(shù)的CELP革新代碼本來(lái)被產(chǎn)生。在本說(shuō)明性實(shí)施例中,已經(jīng)使用了具有大致一致分布的簡(jiǎn)單隨機(jī)產(chǎn)生器。在調(diào)整革新增益之前,隨意產(chǎn)生的革新被定標(biāo)為某個(gè)參考值,在此被固定為每個(gè)采樣的歸一化(unitary)的能量。
在消除塊的開始,通過(guò)使用最后的好幀的每個(gè)子幀的革新激勵(lì)增益來(lái)初始化革新增益gsgs=0.1g(0)+0.2g(1)+0.3g(2)+0.4g(3)(23a)其中g(shù)(0)、g(1)、g(2)和g(3)是最后正確接收的幀的四個(gè)(4)子幀的固定代碼本或革新、增益。激勵(lì)的隨機(jī)部分的衰減策略在一定程度上與音調(diào)激勵(lì)的衰減不同。原因是在隨機(jī)激勵(lì)匯聚到舒適的噪音產(chǎn)生(CNG)激勵(lì)能量的同時(shí)音調(diào)激勵(lì)(以及因此激勵(lì)周期性)被匯聚到0。革新增益衰減被完成為gs1=α·gs0+(1-α)·gn---(24)]]>其中g(shù)s1是在下一個(gè)幀的開始的革新增益,gs0是在當(dāng)前幀的開始的革新增益,gn是在舒適噪音產(chǎn)生期間使用的激勵(lì)的增益,而α如在表5中定義的。類似于周期性激勵(lì)衰減,所述增益因此在逐個(gè)采樣的基礎(chǔ)上在整個(gè)幀中線性地衰減,以gs0開始,并且走向在下一個(gè)幀的開始達(dá)到的值gs1。
最后,如果最后的好的(正確接收的或非消除的)接收幀與無(wú)聲不同,則通過(guò)具有系數(shù)-0.0125、-0.109、0.7813、-0.109、-0.0125的線性相位FIR高通濾波器來(lái)濾波所述革新激勵(lì)。為了在有聲分段期間降低噪音分量的量,這些濾波器系數(shù)被乘以等于(0.75-0.25rv)的自適應(yīng)系數(shù),rv是在方程(1)中定義的話音系數(shù)。激勵(lì)的隨意部分然后被加到所述自適應(yīng)激勵(lì)以形成總的激勵(lì)信號(hào)。
如果最后的好幀是無(wú)聲的,僅僅使用革新激勵(lì),并且它被進(jìn)一步衰減一個(gè)0.8的系數(shù)。在這種情況下,過(guò)去激勵(lì)緩沖器被以所述革新激勵(lì)更新,因?yàn)椴豢色@得激勵(lì)的周期性部分。
譜包絡(luò)隱藏、合成和更新為了合成解碼的語(yǔ)音,必須獲得LP濾波器參數(shù)。譜包絡(luò)逐漸被移動(dòng)到環(huán)境噪音的被估計(jì)的包絡(luò)。在此,使用LP參數(shù)的ISF表示I1(j)=αI0(j)+(1-α)In(j),j=0,...,p-1(25)在方程(25)中,I1(j)是當(dāng)前幀的第j個(gè)ISF的值,I0(j)是前一個(gè)幀的第j個(gè)ISF的值,In(j)是估計(jì)的舒適噪音包絡(luò)的第j個(gè)ISF的值,p是LP濾波器的階。
通過(guò)經(jīng)由LP合成濾波器濾波所述激勵(lì)信號(hào)來(lái)獲得合成的語(yǔ)音。像在正常編碼器操作期間那樣,濾波系數(shù)從所述ISF表示被計(jì)算,并且對(duì)于每個(gè)子幀(每個(gè)幀四次(4))被內(nèi)插。
當(dāng)革新增益量化器和ISF量化器都使用預(yù)測(cè)時(shí),它們的存儲(chǔ)器在恢復(fù)正常操作后將不是最新的。為了減小這種影響,在每個(gè)被消除的幀的結(jié)尾估計(jì)和更新所述量化器的存儲(chǔ)器。
在消除后的正常操作的恢復(fù)在消除的幀的塊之后的恢復(fù)的問(wèn)題一般是由于在所有現(xiàn)代語(yǔ)音編碼器中實(shí)際使用的強(qiáng)預(yù)測(cè)。具體地講,CELP類型語(yǔ)音編碼器由于它們使用過(guò)去的激勵(lì)信號(hào)來(lái)編碼當(dāng)前的幀激勵(lì)(長(zhǎng)期或音調(diào)預(yù)測(cè))的事實(shí),而實(shí)現(xiàn)用于有聲語(yǔ)音的高信號(hào)噪聲比。而且,多數(shù)量化器(LP量化器、增益量化器)使用預(yù)測(cè)。
人為開始構(gòu)造與在CELP編碼器中的長(zhǎng)期預(yù)測(cè)的使用相關(guān)聯(lián)的最復(fù)雜的情況是當(dāng)丟失有聲開始時(shí)。被丟失的開始意味著有聲語(yǔ)音發(fā)生在消除塊期間的某個(gè)位置。在這種情況下,最后的好的接收幀是無(wú)聲的,因此在激勵(lì)緩沖器中沒(méi)有發(fā)現(xiàn)周期性激勵(lì)。但是在消除塊之后的第一好幀是有聲的,在編碼器的激勵(lì)緩沖器是高周期性的,并且已經(jīng)使用這個(gè)周期的過(guò)去激勵(lì)來(lái)編碼自適應(yīng)激勵(lì)。當(dāng)激勵(lì)的這個(gè)周期性部分在解碼器完全丟失時(shí),它會(huì)花費(fèi)幾個(gè)幀來(lái)從這個(gè)丟失恢復(fù)。
如果丟失開始幀(即有聲好幀在消除后到達(dá),但是在消除之前的最后的好幀是無(wú)聲的,如圖6所示),則使用特殊技術(shù)來(lái)人為地重建所述被丟失的開始并觸發(fā)有聲合成。在丟失開始之后的第一個(gè)好幀的開始,激勵(lì)的周期性部分被人為地構(gòu)建為由音調(diào)周期分離的脈沖的低通濾波的周期性鏈。在本說(shuō)明性實(shí)施例中,所述低通濾波器是具有脈沖響應(yīng)hlow={-0.0125,0.109,0.7813,0.109,-0.0125}的簡(jiǎn)單線性相位FIR濾波器。但是,也可以使用對(duì)應(yīng)于話音信息——如果這個(gè)信息可以獲得——的截止頻率來(lái)動(dòng)態(tài)地選擇濾波器。使用正常的CELP解碼來(lái)構(gòu)建激勵(lì)的革新部分。也可以隨機(jī)地選擇革新代碼本的輸入項(xiàng)(或革新本身可以隨機(jī)地產(chǎn)生),因?yàn)闊o(wú)論如何已經(jīng)丟失了與原始信號(hào)的同步。
實(shí)際上,人為開始的長(zhǎng)度被限制,以便通過(guò)這種方法來(lái)構(gòu)建至少一整個(gè)音調(diào)周期,并且所述方法繼續(xù)到當(dāng)前子幀的結(jié)尾。其后,恢復(fù)正常的ACELP處理。所考慮的音調(diào)周期是其中使用人為開始重建的所有子幀的解碼的音調(diào)周期的舍入的平均。通過(guò)將低通濾波器的脈沖響應(yīng)置于自適應(yīng)激勵(lì)緩沖器(先前被初始化為0)中來(lái)實(shí)現(xiàn)所述低通濾波脈沖鏈。第一脈沖響應(yīng)的中心將在相對(duì)于幀的開始的量化位置τq(在比特流內(nèi)被發(fā)送),并且剩余的脈沖將用所述平均音調(diào)的距離布置直到由與人為開始構(gòu)建影響的最后子幀的結(jié)尾。如果可用的帶寬不足夠發(fā)送第一聲門脈沖位置,則第一脈沖響應(yīng)可以任意地被布置在當(dāng)前幀開始后的音調(diào)周期的一半周圍。
作為示例,對(duì)于64個(gè)采樣的子幀長(zhǎng)度,讓我們考慮在第一和第二子幀中的音調(diào)周期是p(0)=70.75和p(1)=71。因?yàn)檫@大于子幀的大小64,因此在前兩個(gè)子幀期間構(gòu)建人為開始,并且音調(diào)周期將等于被舍入到最近的整數(shù)的、即71的兩個(gè)子幀的音調(diào)平均。通過(guò)正常的CELP解碼器來(lái)處理最后兩個(gè)子幀。
人為開始激勵(lì)的周期性部分的能量然后被對(duì)應(yīng)于用于FER隱藏的被量化和發(fā)送的能量以增益進(jìn)行定標(biāo)(如在方程16和17中定義),并且被LP合成濾波器的增益相除。LP合成濾波器增益被計(jì)算為gLP=Σi=063h2(i)---(31)]]>其中h(i)是LP合成濾波器脈沖響應(yīng)。最后,通過(guò)將周期性部分乘以0.96來(lái)降低人為開始增益?;蛘撸绻嬖诳捎糜谝舶l(fā)送話音信息的帶寬,則這個(gè)值可以對(duì)應(yīng)于該話音?;蛘?,在不偏離本發(fā)明的實(shí)質(zhì)的情況下,也可以在進(jìn)入解碼器子幀環(huán)之前在過(guò)去激勵(lì)緩沖器中構(gòu)建所述人為開始。這具有優(yōu)點(diǎn)避免特殊處理以構(gòu)建人為開始的周期性部分,并且可以取而代之的使用通常的CELP解碼。
在人為開始構(gòu)建的情況下,用于輸出的語(yǔ)音合成的LP濾波器不被內(nèi)插。作為替代,所接收的LP參數(shù)被用于整個(gè)幀的合成。
能量控制在被消除的幀的塊后恢復(fù)的最重要任務(wù)是適當(dāng)?shù)乜刂坪铣傻恼Z(yǔ)音信號(hào)的能量。因?yàn)樵诂F(xiàn)代語(yǔ)音編碼器中通常使用的強(qiáng)預(yù)測(cè),需要對(duì)合成能量的控制。當(dāng)在有聲分段期間發(fā)生被消除的幀的塊時(shí),能量控制是最重要的。當(dāng)在有聲幀之后幀消除到達(dá)時(shí),在利用一些衰減策略的隱藏期間通常使用最后的好幀的激勵(lì)。當(dāng)具有在消除后的第一好幀的新的LP濾波器到達(dá)時(shí),會(huì)在新的LP合成濾波器的激勵(lì)能量和增益之間有不匹配。新的合成濾波器可以產(chǎn)生合成信號(hào),它具有與最后合成的消除幀的能量和與原始信號(hào)能量大大不同的能量。
在消除幀后的第一個(gè)好幀期間的能量控制可以被總結(jié)如下。合成信號(hào)被定標(biāo)以便使其在第一好幀的開始的能量類似于最后消除幀的結(jié)尾的合成語(yǔ)音信號(hào)的能量,并且向幀的結(jié)尾匯聚被發(fā)送的能量,并且防止太重要的能量增加。
在合成的語(yǔ)音信號(hào)域中進(jìn)行能量控制。即使在語(yǔ)音域中控制能量,激勵(lì)信號(hào)必須被定標(biāo),因?yàn)樗米麟S后幀的長(zhǎng)期預(yù)測(cè)存儲(chǔ)器。合成然后被重新進(jìn)行以平滑過(guò)渡。設(shè)g0表示用于定標(biāo)在當(dāng)前幀中的第一采樣的增益,g1是在幀的結(jié)尾使用的增益。激勵(lì)信號(hào)然后被定標(biāo)如下us(i)=gAGC(i)·u(i),i=0,...,L-1(32)其中us(i)是定標(biāo)的激勵(lì),u(i)是在定標(biāo)之前的激勵(lì),L是幀長(zhǎng)度,gAGC(i)是從g0開始并且指數(shù)地匯聚到g1的增益gAGC(i)=fAGCgAGC(i-1)+(1-fAGc)g1j=0,...,L-1其初始化gAGC(-1)=g0,其中fAGC是在這種實(shí)現(xiàn)方式中被設(shè)置為值0.98的衰減系數(shù)。這個(gè)值已經(jīng)被實(shí)驗(yàn)地找到來(lái)作為具有從在一端的前一個(gè)(消除的)幀的平滑過(guò)渡和盡可能地將當(dāng)前幀的最后音調(diào)周期定標(biāo)為在另一端的正確(發(fā)送的)值的折中。這是重要的,因?yàn)樵趲慕Y(jié)尾與音調(diào)同步地估計(jì)被發(fā)送的能量。增益g0和g1被定義為g0=E-1/E0---(33a)]]>
gl=Eq/E1---(33b)]]>其中E_1是在前一個(gè)(消除的)幀的結(jié)尾計(jì)算的能量,E0是在當(dāng)前(恢復(fù))幀的開始的能量,E1是在當(dāng)前幀的結(jié)尾的能量,Eq是在當(dāng)前幀的結(jié)尾的被量化發(fā)送的能量信息,它們是從方程(16,17)在編碼器被計(jì)算的。E_1和E1被類似地計(jì)算,除了它們是對(duì)于合成的語(yǔ)音信號(hào)s’被計(jì)算的。E_1是使用隱藏音調(diào)周期Tc與音調(diào)同步地被計(jì)算,并且E1使用舍入音調(diào)T3的最后的子幀。E0被使用第一子幀的舍入的音調(diào)值T0的類似地被計(jì)算,方程(16,17)被修改為用于有聲和開始幀的E=maxi=0tE(s′2(i))]]>tE等于舍入的音調(diào)時(shí)滯或如果音調(diào)小于64個(gè)采樣則等于那個(gè)長(zhǎng)度的兩倍。對(duì)于其他幀,E=1t0Σi=0tEs′2(i)]]>并且tE等于幀長(zhǎng)度的一半。增益g0和g1被進(jìn)一步限制到最大允許的值以防止強(qiáng)的能量。這個(gè)值在本說(shuō)明性實(shí)現(xiàn)方式中已經(jīng)被設(shè)置為1.2。
進(jìn)行幀消除隱藏和解碼器恢復(fù)包括當(dāng)在幀消除后接收的第一個(gè)非消除幀的LP濾波器的增益大于在所述幀消除期間被消除的最后幀的LP濾波器的增益時(shí),使用下面的關(guān)系式來(lái)將在所接收的第一非消除幀期間在解碼器中產(chǎn)生的LP濾波器激勵(lì)信號(hào)的能量調(diào)整為所述被接收的第一非消除的幀的LP濾波器的增益如果Eq不能被發(fā)送,則Eq被設(shè)置為E1。但是如果在有聲語(yǔ)音分段期間出現(xiàn)消除(即在消除之前的最后好幀和在消除后的第一好幀被分類為有聲過(guò)渡、有聲或開始),則必須采取進(jìn)一步的預(yù)防措施,因?yàn)樯鲜龅脑诩?lì)信號(hào)能量和LP濾波器增益之間的可能的不匹配。當(dāng)在幀消除后接收的第一非消除幀的LP濾波器的增益大于在那個(gè)幀消除期間被消除的最后幀的LP濾波器的增益時(shí),出現(xiàn)特別危險(xiǎn)的情況。在那個(gè)特定的情況下,使用下面的關(guān)系式,在所接收的第一非消除幀期間在解碼器中產(chǎn)生的LP濾波器激勵(lì)信號(hào)的能量被調(diào)整到所接收的第一非消除幀的LP濾波器的增益Eq=E1ELP0ELP1]]>其中ELP0是在消除之前的最后好幀的LP濾波器脈沖響應(yīng)的能量,ELP1是在消除后第一好幀的LP濾波器的能量。在這種實(shí)現(xiàn)方式中,使用在一個(gè)幀中最后子幀的LP濾波器。最后,Eq的值被限制到在這種情況下的E_1的值(發(fā)送沒(méi)有Eq信息的有聲分段消除)。
下面的除外——所有與在語(yǔ)音信號(hào)中的過(guò)渡相關(guān)聯(lián)——還重寫了g0的計(jì)算。如果在當(dāng)前幀中使用人為開始,則g0被設(shè)置為0.5g1,以使得開始能量逐漸地增加。
在被分類為開始的、在消除后的第一好幀的情況下,增益g0被防止大于那個(gè)g1。這種預(yù)防措施被采取來(lái)防止在幀(它可能仍然至少部分地?zé)o聲)的開始的正增益調(diào)整放大有聲開始(在幀的結(jié)尾)。
最后,在從有聲向無(wú)聲的過(guò)渡期間(即被分類為有聲過(guò)渡、有聲或開始的最后好幀和被劃分為無(wú)聲的當(dāng)前幀)或在從非有效語(yǔ)音時(shí)段到有效語(yǔ)音時(shí)段的過(guò)渡期間(被編碼為舒適噪音的最后好的接收幀和被編碼為有效語(yǔ)音的當(dāng)前幀),g0被設(shè)置為g1。
在有聲分段消除的情況下,錯(cuò)誤的能量問(wèn)題可以也在跟隨在消除后的第一好幀的幀中演示其本身。即使已經(jīng)如上所述調(diào)整了第一好幀的能量,這也會(huì)發(fā)生。為了衰減這個(gè)問(wèn)題,能量控制可以繼續(xù)到有聲分段的結(jié)尾。
雖然已經(jīng)與本發(fā)明的說(shuō)明性實(shí)施例相關(guān)聯(lián)地在上述的說(shuō)明中說(shuō)明了本發(fā)明,可以在不脫離主題發(fā)明的范圍和精神的情況下在所附的權(quán)利要求的范圍內(nèi)按照意愿來(lái)修改這個(gè)說(shuō)明性實(shí)施例。
權(quán)利要求
1.一種方法,用于改善在從編碼器向解碼器的發(fā)送期間被刪除的編碼的聲音信號(hào)的幀引起的幀刪除的隱藏,并且用于促進(jìn)在已經(jīng)接收到所述編碼的聲音信號(hào)的未刪除幀后解碼器的恢復(fù),包括在編碼器中確定隱藏/恢復(fù)參數(shù);向解碼器發(fā)送在編碼器確定的隱藏/恢復(fù)參數(shù);在解碼器,響應(yīng)于所接收的隱藏/恢復(fù)參數(shù)而進(jìn)行刪除幀隱藏和解碼器恢復(fù)。
2.按照權(quán)利要求1的方法,還包括在向解碼器發(fā)送所述隱藏/恢復(fù)參數(shù)之前,在編碼器中量化隱藏/恢復(fù)參數(shù)。
3.按照權(quán)利要求1的方法,包括在編碼器中確定從由下述組成的組中選擇的隱藏/恢復(fù)參數(shù)信號(hào)分類參數(shù)、能量信息參數(shù)和相位信息參數(shù)。
4.按照權(quán)利要求3的方法,其中相位信息參數(shù)的確定包括搜索在編碼的聲音信號(hào)的每個(gè)幀中的第一聲門脈沖的位置。
5.按照權(quán)利要求4的方法,其中相位信息參數(shù)的確定還包括在編碼器中編碼第一聲門脈沖的形狀、符號(hào)和幅度,并且從編碼器向解碼器發(fā)送被編碼的形狀、符號(hào)和幅度。
6.按照權(quán)利要求4的方法,其中搜索第一聲門脈沖的位置包括測(cè)量第一聲門脈沖來(lái)作為在音調(diào)周期內(nèi)的最大幅度的采樣;量化在音調(diào)周期內(nèi)的最大幅度的采樣的位置。
7.按照權(quán)利要求1的方法,其中所述聲音信號(hào)是語(yǔ)音信號(hào);并且在編碼器中的隱藏/恢復(fù)參數(shù)的確定包括將編碼的聲音信號(hào)的連續(xù)的幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始。
8.按照權(quán)利要求7的方法,其中分類連續(xù)的幀包括將作為無(wú)聲的幀的每個(gè)幀、沒(méi)有有效語(yǔ)音的每個(gè)幀和具有趨向于無(wú)聲的結(jié)尾的每個(gè)有聲補(bǔ)償幀分類為無(wú)聲。
9.按照權(quán)利要求7的方法,其中分類連續(xù)的幀包括將具有結(jié)尾的每個(gè)無(wú)聲幀分類為無(wú)聲過(guò)渡,所述結(jié)尾具有可能的有聲開始,它太短或未被建立得足夠好以便被處理為有聲幀。
10.按照權(quán)利要求7的方法,其中分類連續(xù)的幀包括將具有相對(duì)較弱的有聲特性的每個(gè)有聲幀分類為有聲過(guò)渡,其中包括具有迅速改變的特性的有聲幀和持續(xù)整個(gè)幀的有聲補(bǔ)償,其中被分類為有聲過(guò)渡的幀僅僅跟隨被分類為有聲過(guò)渡、有聲或開始的幀。
11.按照權(quán)利要求7的方法,其中分類連續(xù)的幀包括將具有穩(wěn)定特性的每個(gè)有聲幀分類為有聲,其中被分類為有聲的幀僅僅跟隨被分類為有聲過(guò)渡、有聲或開始的幀。
12.按照權(quán)利要求7的方法,其中分類連續(xù)的幀包括將跟隨被分類為無(wú)聲或無(wú)聲過(guò)渡的幀的具有穩(wěn)定特性的每個(gè)有聲幀分類為開始。
13.按照權(quán)利要求7的方法,包括根據(jù)下面的參數(shù)的至少一部分來(lái)確定編碼的聲音信號(hào)的連續(xù)幀的分類歸一化的相關(guān)性參數(shù)、譜傾斜參數(shù)、信號(hào)噪聲比參數(shù)、音調(diào)穩(wěn)定性參數(shù)、相對(duì)幀能量參數(shù)和零交叉參數(shù)。
14.按照權(quán)利要求13的方法,其中確定連續(xù)幀的分類包括根據(jù)所述歸一化的相關(guān)性參數(shù)、譜傾斜參數(shù)、信號(hào)噪聲比參數(shù)、音調(diào)穩(wěn)定性參數(shù)、相對(duì)幀能量參數(shù)和零交叉參數(shù)來(lái)計(jì)算品質(zhì)因數(shù);以及比較所述品質(zhì)因數(shù)與門限以確定所述分類。
15.按照權(quán)利要求13的方法,包括根據(jù)語(yǔ)音信號(hào)的當(dāng)前加權(quán)版本和所述語(yǔ)音信號(hào)的過(guò)去的加權(quán)版本來(lái)計(jì)算歸一化的相關(guān)性參數(shù)。
16.按照權(quán)利要求13的方法,包括將譜傾斜參數(shù)估計(jì)為在低頻中集中的能量和在高頻中集中的能量之間的比率。
17.按照權(quán)利要求13的方法,包括將所述信號(hào)噪聲比參數(shù)估計(jì)為在當(dāng)前幀的語(yǔ)音信號(hào)的加權(quán)版本的能量和下述誤差的能量之間的比率所述誤差是在當(dāng)前幀的語(yǔ)音信號(hào)的所述加權(quán)版本和所述當(dāng)前幀的合成語(yǔ)音信號(hào)的加權(quán)版本之間的誤差。
18.按照權(quán)利要求13的方法,包括響應(yīng)于用于當(dāng)前幀的前半部分、當(dāng)前幀的后半部分和先行部分的開環(huán)音調(diào)估計(jì)來(lái)計(jì)算音調(diào)穩(wěn)定性參數(shù)。
19.按照權(quán)利要求13的方法,包括將相對(duì)幀能量參數(shù)計(jì)算為在當(dāng)前幀的能量和有效語(yǔ)音幀的能量的長(zhǎng)期平均之間的差別。
20.按照權(quán)利要求13的方法,包括將所述零交叉參數(shù)確定為語(yǔ)音信號(hào)的符號(hào)從第一極性改變到第二極性的次數(shù)。
21.按照權(quán)利要求13的方法,包括使用可用的先行部分來(lái)計(jì)算所述歸一化的相關(guān)性參數(shù)、譜傾斜參數(shù)、信號(hào)噪聲比參數(shù)、音調(diào)穩(wěn)定性參數(shù)、相對(duì)幀能量參數(shù)和零交叉參數(shù)的至少一個(gè)以考慮在隨后的幀中的語(yǔ)音信號(hào)的行為。
22.按照權(quán)利要求13的方法,還包括也根據(jù)話音有效性檢測(cè)標(biāo)記來(lái)確定被編碼的聲音信號(hào)的連續(xù)幀的分類。
23.按照權(quán)利要求3的方法,其中所述聲音信號(hào)是語(yǔ)音信號(hào);在編碼器中的隱藏/恢復(fù)參數(shù)的確定包括將編碼聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始;確定隱藏/恢復(fù)參數(shù)包括與用于被分類為有聲或開始的幀的信號(hào)能量的最大值相關(guān)聯(lián)地計(jì)算能量信息參數(shù),并且與用于其他幀的每個(gè)采樣的平均能量相關(guān)聯(lián)地計(jì)算能量信息參數(shù)。
24.按照權(quán)利要求1的方法,其中在編碼器中確定隱藏/恢復(fù)參數(shù)包括計(jì)算話音信息參數(shù)。
25.按照權(quán)利要求24的方法,其中所述聲音信號(hào)是語(yǔ)音信號(hào);在編碼器中確定隱藏/恢復(fù)參數(shù)包括分類編碼的聲音信號(hào)的連續(xù)幀;所述方法包括根據(jù)歸一化相關(guān)性參數(shù)來(lái)確定編碼的聲音信號(hào)的連續(xù)幀的類別;計(jì)算話音信息參數(shù)包括根據(jù)歸一化的相關(guān)性來(lái)估計(jì)所述話音信息參數(shù)。
26.按照權(quán)利要求1的方法,其中進(jìn)行幀消除隱藏和解碼器恢復(fù)包括在接收到在幀消除后的非消除無(wú)聲幀之后,產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性部分;在接收到在幀消除后的除了無(wú)聲之外的非消除幀之后,通過(guò)重復(fù)前一個(gè)幀的最后音調(diào)周期來(lái)構(gòu)建LP濾波器激勵(lì)信號(hào)的周期性部分。
27.按照權(quán)利要求26的方法,其中構(gòu)建LP濾波器激勵(lì)信號(hào)的周期性部分包括通過(guò)低通濾波器來(lái)濾波前一個(gè)幀的重復(fù)的最后音調(diào)周期。
28.按照權(quán)利要求27的方法,其中確定隱藏/恢復(fù)參數(shù)包括計(jì)算話音信息參數(shù);低通濾波器具有截止頻率;構(gòu)建激勵(lì)信號(hào)的周期性部分包括與所述話音信息參數(shù)相關(guān)聯(lián)地動(dòng)態(tài)地調(diào)整截止頻率。
29.按照權(quán)利要求1的方法,其中進(jìn)行幀消除隱藏和解碼器恢復(fù)包括隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分。
30.按照權(quán)利要求29的方法,其中隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分包括產(chǎn)生隨機(jī)噪音。
31.按照權(quán)利要求29的方法,其中隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分包括隨機(jī)地產(chǎn)生革新代碼本的向量指數(shù)。
32.按照權(quán)利要求29的方法,其中所述聲音信號(hào)是語(yǔ)音信號(hào);確定隱藏/恢復(fù)參數(shù)包括將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始;隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分還包括●如果最后正確接收的幀與無(wú)聲不同,通過(guò)高通濾波器來(lái)濾波激勵(lì)信號(hào)的革新部分;●如果最后正確接收的幀是無(wú)聲的,僅僅使用激勵(lì)信號(hào)的革新部分。
33.按照權(quán)利要求1的方法,其中所述聲音信號(hào)是語(yǔ)音信號(hào);在編碼器中確定隱藏/恢復(fù)參數(shù)包括將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始;進(jìn)行幀消除隱藏和解碼器恢復(fù)包括當(dāng)丟失開始幀——通過(guò)在幀消除后的有聲幀和在幀消除之前的無(wú)聲幀的存在來(lái)指示這一點(diǎn)——時(shí),通過(guò)將激勵(lì)信號(hào)的周期性部分構(gòu)建為由音調(diào)周期分離的脈沖的低通濾波的周期性鏈來(lái)人為地重建被丟失的開始。
34.按照權(quán)利要求33的方法,其中進(jìn)行幀消除隱藏和解碼器恢復(fù)還包括通過(guò)正常的解碼來(lái)構(gòu)建激勵(lì)信號(hào)的革新部分。
35.按照權(quán)利要求34的方法,其中構(gòu)建激勵(lì)信號(hào)的革新部分包括隨機(jī)地選擇革新代碼本的輸入項(xiàng)。
36.按照權(quán)利要求33的方法,其中人為地重建被丟失的開始包括限制人為重建的開始的長(zhǎng)度,以便通過(guò)開始的人為重建來(lái)構(gòu)建至少一整個(gè)音調(diào)周期,所述重建繼續(xù)直到當(dāng)前子幀的結(jié)尾。
37.按照權(quán)利要求36的方法,其中進(jìn)行幀消除隱藏和解碼器恢復(fù)還包括在丟失的開始的人為重建后,恢復(fù)規(guī)則的CELP處理,其中所述音調(diào)周期是其中使用人為開始重建的所有子幀的解碼的音調(diào)周期的舍入的平均。
38.按照權(quán)利要求3的方法,其中進(jìn)行幀消除隱藏和解碼器恢復(fù)包括控制由解碼器產(chǎn)生的合成聲音信號(hào)的能量,控制合成的聲音信號(hào)的能量包括定標(biāo)合成的聲音信號(hào)以使在幀消除后接收的第一非消除幀的開始的所述合成的聲音信號(hào)的能量與在所述幀消除期間被消除的最后幀的結(jié)尾的所述合成信號(hào)的能量類似;在限制能量中的提高的同時(shí),將在所接收的第一非消除幀中的合成聲音信號(hào)的能量向所述被接收的第一非消除幀的結(jié)尾匯聚到對(duì)應(yīng)于所接收的能量信息參數(shù)的能量。
39.按照權(quán)利要求3的方法,其中所述能量信息參數(shù)不從編碼器被發(fā)送到解碼器;進(jìn)行幀消除隱藏和解碼器恢復(fù)包括當(dāng)幀消除后接收的第一非消除幀的LP濾波器的增益大于在所述幀消除期間被消除的最后幀的LP濾波器的增益時(shí),將在所接收的第一非消除幀期間在解碼器產(chǎn)生的LP濾波器激勵(lì)信號(hào)的能量調(diào)整為所述被接收的第一非消除幀的LP濾波器的增益。
40.按照權(quán)利要求39的方法,其中所述將在所接收的第一非消除幀期間在解碼器產(chǎn)生的LP濾波器激勵(lì)信號(hào)的能量調(diào)整為所述被接收的第一非消除幀的LP濾波器的增益包括使用下面的關(guān)系式Eq=E1ELP0ELP1]]>其中E1是在當(dāng)前幀的結(jié)尾的能量,ELP0是對(duì)于在幀消除之前接收的最后的非消除幀的LP濾波器的脈沖響應(yīng)的能量,ELP1是對(duì)于在幀消除之后的接收的第一非消除幀的LP濾波器的脈沖響應(yīng)的能量。
41.按照權(quán)利要求38的方法,其中所述聲音信號(hào)是語(yǔ)音信號(hào);在編碼器中確定隱藏/恢復(fù)參數(shù)包括將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始;當(dāng)在幀消除后接收的第一非消除幀被分類為開始時(shí),進(jìn)行幀消除隱藏和解碼器恢復(fù)包括將用于定標(biāo)合成的聲音信號(hào)的增益限定為給定值。
42.按照權(quán)利要求38的方法,其中所述聲音信號(hào)是語(yǔ)音信號(hào);在編碼器中確定隱藏/恢復(fù)參數(shù)包括將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始;所述方法包括使得用于定標(biāo)在幀消除后接收的第一非消除幀的開始的合成聲音信號(hào)的增益等于在所述被接收的第一非消除幀的結(jié)尾的使用的增益●在從有聲幀到無(wú)聲幀的過(guò)渡期間,在被分類為有聲過(guò)渡的、有聲或開始的在幀消除之前接收的最后非消除幀和被分類為無(wú)聲的在幀消除后接收的第一非消除幀的情況下,●在從非有效語(yǔ)音時(shí)段向有效語(yǔ)音階段過(guò)渡期間,當(dāng)在幀消除之前接收的最后非消除幀被編碼為舒適噪音并且在幀消除后接收的第一非消除幀被編碼為有效語(yǔ)音的時(shí)候。
43.一種方法,用于由在信號(hào)編碼參數(shù)的形式下編碼的聲音信號(hào)從編碼器向解碼器的發(fā)送期間被消除的幀引起的幀消除的隱藏,并且用于在已經(jīng)接收到編碼的聲音信號(hào)的非消除幀后促進(jìn)解碼器的恢復(fù),包括在解碼器中從信號(hào)編碼參數(shù)確定隱藏/恢復(fù)參數(shù);在解碼器中,響應(yīng)于所確定的隱藏/恢復(fù)參數(shù)進(jìn)行被消除的幀隱藏和解碼器恢復(fù)。
44.按照權(quán)利要求43的方法,包括在解碼器中確定從由下述組成的組中選擇的隱藏/恢復(fù)參數(shù)信號(hào)分類參數(shù)、能量信息參數(shù)和相位信息參數(shù)。
45.按照權(quán)利要求43的方法,其中所述聲音信號(hào)是語(yǔ)音信號(hào);在解碼器中確定隱藏/恢復(fù)參數(shù)包括將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始。
46.按照權(quán)利要求43的方法,其中在解碼器中確定隱藏/恢復(fù)參數(shù)包括計(jì)算話音信息參數(shù)。
47.按照權(quán)利要求43的方法,其中進(jìn)行幀消除隱藏和解碼器恢復(fù)包括在接收在幀消除后的非消除的無(wú)聲幀之后,產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性部分;在接收在幀消除后的除了無(wú)聲的非消除幀之后,通過(guò)重復(fù)前一個(gè)幀的最后音調(diào)周期來(lái)構(gòu)建LP濾波器激勵(lì)信號(hào)的周期性部分。
48.按照權(quán)利要求47的方法,其中構(gòu)建激勵(lì)信號(hào)的周期性部分包括通過(guò)低通濾波器來(lái)濾波前一個(gè)幀的被重復(fù)的最后音調(diào)周期。
49.按照權(quán)利要求48的方法,其中在解碼器中確定隱藏/恢復(fù)參數(shù)包括計(jì)算話音信息參數(shù);所述低通濾波器具有截止頻率;構(gòu)建LP濾波器激勵(lì)信號(hào)的周期性部分包括與話音信息參數(shù)相關(guān)聯(lián)的動(dòng)態(tài)地調(diào)整截止頻率。
50.按照權(quán)利要求43的方法,其中進(jìn)行幀消除隱藏和解碼器恢復(fù)包括隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分。
51.按照權(quán)利要求50的方法,其中隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分包括產(chǎn)生隨機(jī)噪音。
52.按照權(quán)利要求50的方法,其中隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分包括產(chǎn)生革新代碼本的向量指數(shù)。
53.按照權(quán)利要求50的方法,其中所述聲音信號(hào)是語(yǔ)音信號(hào);在解碼器中確定隱藏/恢復(fù)參數(shù)包括將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始;隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分還包括●如果最后接收的非消除幀與無(wú)聲不同,則通過(guò)高通濾波器來(lái)濾波LP濾波器激勵(lì)信號(hào)的革新部分;●如果最后接收的非消除幀是無(wú)聲的,僅僅使用LP濾波器激勵(lì)信號(hào)的革新部分。
54.按照權(quán)利要求50的方法,其中所述聲音信號(hào)是語(yǔ)音信號(hào);在解碼器中確定隱藏/恢復(fù)參數(shù)包括將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始;進(jìn)行幀消除隱藏和解碼器恢復(fù)包括當(dāng)丟失開始幀——通過(guò)在幀消除之后的有聲幀和在幀消除之前的無(wú)聲幀的存在來(lái)指示這一點(diǎn)——時(shí),通過(guò)將激勵(lì)信號(hào)的周期性部分構(gòu)建為由音調(diào)周期分離的脈沖的低通濾波的周期性鏈來(lái)人為地重建被丟失的開始。
55.按照權(quán)利要求54的方法,其中進(jìn)行幀消除隱藏和解碼器恢復(fù)還包括通過(guò)正常的解碼來(lái)構(gòu)建LP濾波器激勵(lì)信號(hào)的革新部分。
56.按照權(quán)利要求55的方法,其中構(gòu)建LP濾波器激勵(lì)信號(hào)的革新部分包括隨機(jī)地選擇革新代碼本的輸入項(xiàng)。
57.按照權(quán)利要求54的方法,其中人為地重建被丟失的開始包括限制人為重建的開始的長(zhǎng)度,以便通過(guò)開始的人為重建來(lái)構(gòu)建至少一整個(gè)音調(diào)周期,所述重建繼續(xù)直到當(dāng)前子幀的結(jié)尾。
58.按照權(quán)利要求57的方法,其中,進(jìn)行幀消除隱藏和解碼器恢復(fù)還包括在人為重建被丟失的開始之后,恢復(fù)規(guī)則的CELP處理,其中所述音調(diào)周期是其中使用人為開始重建的所有子幀的解碼的音調(diào)周期的舍入平均。
59.按照權(quán)利要求44的方法,其中不從編碼器向解碼器發(fā)送能量信息參數(shù);進(jìn)行幀消除隱藏和解碼器恢復(fù)包括當(dāng)在幀消除后接收的第一非消除幀的LP濾波器的增益大于在所述幀消除期間消除的最后幀的LP濾波器的增益的時(shí)候,使用下面的關(guān)系式來(lái)將在所接收的第一非消除幀期間在解碼器中產(chǎn)生的LP濾波器激勵(lì)信號(hào)的能量調(diào)整為所述被接收的第一非消除幀的LP濾波器的增益Eq=E1ELP0ELP1]]>其中E1是在當(dāng)前幀的結(jié)尾的能量,ELP0是對(duì)于在幀消除之前接收的最后的非消除幀的LP濾波器的脈沖響應(yīng)的能量,ELP1是對(duì)于在幀消除之后的接收的第一非消除幀的LP濾波器的脈沖響應(yīng)的能量。
60.一種器件,用于改善在從編碼器向解碼器的發(fā)送期間被刪除的編碼的聲音信號(hào)的幀引起的幀刪除的隱藏,并且用于促進(jìn)在已經(jīng)接收到所述編碼的聲音信號(hào)的未刪除幀后解碼器的恢復(fù),包括用于在編碼器中確定隱藏/恢復(fù)參數(shù)的部件;用于向解碼器發(fā)送在編碼器確定的隱藏/恢復(fù)參數(shù)的部件;在解碼器,用于響應(yīng)于所接收的隱藏/恢復(fù)參數(shù)而進(jìn)行刪除幀隱藏和解碼器恢復(fù)的部件。
61.按照權(quán)利要求60的器件,還包括用于在向解碼器發(fā)送所述隱藏/恢復(fù)參數(shù)之前在編碼器中量化隱藏/恢復(fù)參數(shù)的部件。
62.按照權(quán)利要求60的器件,包括用于在編碼器中確定從由下述組成的下組中選擇的隱藏/恢復(fù)參數(shù)的部件信號(hào)分類參數(shù)、能量信息參數(shù)和相位信息參數(shù)。
63.按照權(quán)利要求62的器件,其中用于相位信息參數(shù)的確定的部件包括用于搜索在編碼的聲音信號(hào)的每個(gè)幀中的第一聲門脈沖的位置的部件。
64.按照權(quán)利要求63的器件,其中用于相位信息參數(shù)的確定的部件還包括用于在編碼器中編碼第一聲門脈沖的形狀、符號(hào)和幅度并且從編碼器向解碼器發(fā)送被編碼的形狀、符號(hào)和幅度的部件。
65.按照權(quán)利要求63的器件,其中用于搜索第一聲門脈沖的位置的部件包括用于測(cè)量第一聲門脈沖來(lái)作為在音調(diào)周期內(nèi)的最大幅度的采樣的部件;用于量化在音調(diào)周期內(nèi)的最大幅度的采樣的位置的部件。
66.按照權(quán)利要求60的器件,其中所述聲音信號(hào)是語(yǔ)音信號(hào);用于在編碼器中的隱藏/恢復(fù)參數(shù)的確定的部件包括用于將編碼的聲音信號(hào)的連續(xù)的幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始的部件。
67.按照權(quán)利要求66的器件,其中用于分類連續(xù)的幀的部件包括用于將作為無(wú)聲的幀的每個(gè)幀、沒(méi)有有效語(yǔ)音的每個(gè)幀和具有趨向于無(wú)聲的結(jié)尾的每個(gè)有聲補(bǔ)償幀分類為無(wú)聲的部件。
68.按照權(quán)利要求66的器件,其中用于分類連續(xù)的幀的部件包括用于將具有結(jié)尾的每個(gè)無(wú)聲幀分類為無(wú)聲過(guò)渡的部件,所述結(jié)尾具有可能的有聲開始,它太短或未被建立得足夠好以便被處理為有聲幀。
69.按照權(quán)利要求66的器件,其中用于分類連續(xù)的幀的部件包括用于將具有較弱的有聲特性的每個(gè)有聲幀分類為有聲過(guò)渡的部件,其中具有較弱的有聲特性的每個(gè)有聲幀包括具有迅速改變的特性的有聲幀和持續(xù)整個(gè)幀的有聲補(bǔ)償,其中被分類為有聲過(guò)渡的幀僅僅跟隨被分類為有聲過(guò)渡、有聲或開始的幀。
70.按照權(quán)利要求66的器件,其中用于分類連續(xù)的幀的部件包括用于將具有穩(wěn)定特性的每個(gè)有聲幀分類為有聲,其中被分類為有聲的幀僅僅跟隨被分類為有聲過(guò)渡、有聲或開始的幀的部件。
71.按照權(quán)利要求66的器件,其中用于分類連續(xù)的幀的部件包括用于將跟隨被分類為無(wú)聲或無(wú)聲過(guò)渡的幀的具有穩(wěn)定特性的每個(gè)有聲幀分類為開始的部件。
72.按照權(quán)利要求66的器件,包括用于根據(jù)下面的參數(shù)的至少一部分來(lái)確定編碼的聲音信號(hào)的連續(xù)幀的分類的部件歸一化的相關(guān)性參數(shù)、譜傾斜參數(shù)、信號(hào)噪聲比參數(shù)、音調(diào)穩(wěn)定性參數(shù)、相對(duì)幀能量參數(shù)和零交叉參數(shù)。
73.按照權(quán)利要求72的器件,其中用于確定連續(xù)幀的分類的部件包括用于根據(jù)所述歸一化的相關(guān)性參數(shù)、譜傾斜參數(shù)、信號(hào)噪聲比參數(shù)、音調(diào)穩(wěn)定性參數(shù)、相對(duì)幀能量參數(shù)和零交叉參數(shù)來(lái)計(jì)算品質(zhì)因數(shù)的部件;用于比較所述品質(zhì)因數(shù)與門限以確定所述分類的部件。
74.按照權(quán)利要求72的器件,包括用于根據(jù)語(yǔ)音信號(hào)的當(dāng)前加權(quán)版本和所述語(yǔ)音信號(hào)的過(guò)去的加權(quán)版本來(lái)計(jì)算歸一化的相關(guān)性參數(shù)的部件。
75.按照權(quán)利要求72的器件,包括用于將譜傾斜參數(shù)估計(jì)為在低頻中集中的能量和在高頻中集中的能量之間的比率的部件。
76.按照權(quán)利要求72的器件,包括用于將所述信號(hào)噪聲比參數(shù)估計(jì)為在當(dāng)前幀的語(yǔ)音信號(hào)的加權(quán)版本的能量和下述誤差的能量之間的比率的部件所述誤差是在當(dāng)前幀的語(yǔ)音信號(hào)的所述加權(quán)版本和所述當(dāng)前幀的合成語(yǔ)音信號(hào)的加權(quán)版本之間的誤差。
77.按照權(quán)利要求72的器件,包括用于響應(yīng)于用于當(dāng)前幀的前半部分、當(dāng)前幀的后半部分和先行部分的開環(huán)音調(diào)估計(jì)來(lái)計(jì)算音調(diào)穩(wěn)定性參數(shù)的部件。
78.按照權(quán)利要求72的器件,包括用于將相對(duì)幀能量參數(shù)計(jì)算為在當(dāng)前幀的能量和有效語(yǔ)音幀的能量的長(zhǎng)期平均之間的差別的部件。
79.按照權(quán)利要求72的器件,包括用于將所述零交叉參數(shù)確定為語(yǔ)音信號(hào)的符號(hào)從第一極性改變到第二極性的次數(shù)的部件。
80.按照權(quán)利要求72的器件,包括用于使用可用的先行部分來(lái)計(jì)算所述歸一化的相關(guān)性參數(shù)、譜傾斜參數(shù)、信號(hào)噪聲比參數(shù)、音調(diào)穩(wěn)定性參數(shù)、相對(duì)幀能量參數(shù)和零交叉參數(shù)的至少一個(gè)以考慮在隨后的幀中的語(yǔ)音信號(hào)的行為的部件。
81.按照權(quán)利要求72的器件,還包括用于也根據(jù)話音有效性檢測(cè)標(biāo)記來(lái)確定被編碼的聲音信號(hào)的連續(xù)幀的分類的部件。
82.按照權(quán)利要求62的器件,其中所述聲音信號(hào)是語(yǔ)音信號(hào);所述用于在編碼器中確定隱藏/恢復(fù)參數(shù)的部件包括用于將編碼聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始的部件;用于確定隱藏/恢復(fù)參數(shù)的部件包括用于與用于被分類為有聲或開始的幀的信號(hào)能量的最大值相關(guān)聯(lián)地計(jì)算能量信息參數(shù)的部件,用于與用于其他幀的每個(gè)采樣的平均能量相關(guān)聯(lián)地計(jì)算能量信息參數(shù)的部件。
83.按照權(quán)利要求60的器件,其中用于在編碼器中確定隱藏/恢復(fù)參數(shù)的部件包括用于計(jì)算話音信息參數(shù)的部件。
84.按照權(quán)利要求83的器件,其中所述聲音信號(hào)是語(yǔ)音信號(hào);用于在編碼器中確定隱藏/恢復(fù)參數(shù)的部件包括用于分類編碼的聲音信號(hào)的連續(xù)幀的部件;所述器件包括用于根據(jù)歸一化相關(guān)性參數(shù)來(lái)確定編碼的聲音信號(hào)的連續(xù)幀的類別的部件;和用于計(jì)算話音信息參數(shù)包括根據(jù)歸一化的相關(guān)性來(lái)估計(jì)所述話音信息參數(shù)的部件。
85.按照權(quán)利要求60的器件,其中用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件包括在接收到在幀消除后的非消除無(wú)聲幀之后,用于產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性部分的部件;在接收到在幀消除后的除了無(wú)聲之外的非消除幀之后,用于通過(guò)重復(fù)前一個(gè)幀的最后音調(diào)周期來(lái)構(gòu)建LP濾波器激勵(lì)信號(hào)的周期性部分的部件。
86.按照權(quán)利要求85的器件,其中用于構(gòu)建LP濾波器激勵(lì)信號(hào)的周期部分的部件包括用于濾波前一個(gè)幀的重復(fù)的最后音調(diào)周期的低通濾波器。
87.按照權(quán)利要求86的器件,其中用于確定隱藏/恢復(fù)參數(shù)的部件包括用于計(jì)算話音信息參數(shù)的部件;所述低通濾波器具有截止頻率;用于構(gòu)建激勵(lì)信號(hào)的周期性部分的部件包括用于與所述話音信息參數(shù)相關(guān)聯(lián)地動(dòng)態(tài)地調(diào)整截止頻率的部件。
88.按照權(quán)利要求60的器件,其中用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件包括用于隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分的部件。
89.按照權(quán)利要求88的器件,其中用于隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分的部件包括用于產(chǎn)生隨機(jī)噪音的部件。
90.按照權(quán)利要求88的器件,其中用于隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分的部件包括用于隨機(jī)地產(chǎn)生革新代碼本的向量指數(shù)的部件。
91.按照權(quán)利要求88的器件,其中所述聲音信號(hào)是語(yǔ)音信號(hào);用于確定隱藏/恢復(fù)參數(shù)的部件包括用于將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始的部件;用于隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分的部件還包括●如果最后正確接收的幀與無(wú)聲不同,用于濾波激勵(lì)信號(hào)的革新部分的高通濾波器;●如果最后正確接收的幀是無(wú)聲的,用于僅僅使用激勵(lì)信號(hào)的革新部分的部件。
92.按照權(quán)利要求60的器件,其中所述聲音信號(hào)是語(yǔ)音信號(hào);用于在編碼器中確定隱藏/恢復(fù)參數(shù)的部件包括用于將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始的部件;用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件包括當(dāng)丟失開始幀——通過(guò)在幀消除后的有聲幀和在幀消除之前的無(wú)聲幀的存在來(lái)指示這一點(diǎn)——時(shí),用于通過(guò)將激勵(lì)信號(hào)的周期性部分構(gòu)建為由音調(diào)周期分離的脈沖的低通濾波的周期性鏈來(lái)人為地重建被丟失的開始的部件。
93.按照權(quán)利要求92的器件,其中用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件還包括用于通過(guò)正常的解碼來(lái)構(gòu)建激勵(lì)信號(hào)的革新部分的部件。
94.按照權(quán)利要求93的器件,其中用于構(gòu)建激勵(lì)信號(hào)的革新部分的部件包括用于隨機(jī)地選擇革新代碼本的輸入項(xiàng)的部件。
95.按照權(quán)利要求92的器件,其中用于人為地重建被丟失的開始的部件包括限制人為重建的開始的長(zhǎng)度、以便通過(guò)開始的人為重建來(lái)構(gòu)建至少一整個(gè)音調(diào)周期的部件,所述重建繼續(xù)直到當(dāng)前子幀的結(jié)尾。
96.按照權(quán)利要求95的器件,其中用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件還包括在丟失的開始的人為重建后,用于恢復(fù)規(guī)則的CELP處理的部件,其中所述音調(diào)周期是其中使用人為開始重建的所有子幀的解碼的音調(diào)周期的舍入的平均。
97.按照權(quán)利要求62的器件,其中用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件包括用于控制由解碼器產(chǎn)生的合成聲音信號(hào)的能量的部件,所述用于控制合成的聲音信號(hào)的能量的部件包括用于定標(biāo)合成的聲音信號(hào)以使在幀消除后接收的第一非消除幀的開始的所述合成的聲音信號(hào)的能量與在所述幀消除期間被消除的最后幀的結(jié)尾的所述合成信號(hào)的能量類似的部件;用于在限制能量中的提高的同時(shí)、將在所接收的第一非消除幀中的合成聲音信號(hào)的能量向所述被接收的第一非消除幀的結(jié)尾匯聚到對(duì)應(yīng)于所接收的能量信息參數(shù)的能量的部件。
98.按照權(quán)利要求62的器件,其中所述能量信息參數(shù)不從編碼器被發(fā)送到解碼器;用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件包括當(dāng)幀消除后接收的第一非消除幀的LP濾波器的增益大于在所述幀消除期間被消除的最后幀的LP濾波器的增益時(shí),用于將在所接收的第一非消除幀期間在解碼器產(chǎn)生的LP濾波器激勵(lì)信號(hào)的能量調(diào)整為所述被接收的第一非消除幀的LP濾波器的增益的部件。
99.按照權(quán)利要求98的器件,其中所述用于將在所接收的第一非消除幀期間在解碼器產(chǎn)生的LP濾波器激勵(lì)信號(hào)的能量調(diào)整為所述被接收的第一非消除幀的LP濾波器的增益的部件包括用于使用下面的關(guān)系式的部件Eq=E1ELP0ELP1]]>其中E1是在當(dāng)前幀的結(jié)尾的能量,ELP0是對(duì)于在幀消除之前接收的最后的非消除幀的LP濾波器的脈沖響應(yīng)的能量,ELP1是對(duì)于在幀消除之后的接收的第一非消除幀的LP濾波器的脈沖響應(yīng)的能量。
100.按照權(quán)利要求97的器件,其中所述聲音信號(hào)是語(yǔ)音信號(hào);用于在編碼器中確定隱藏/恢復(fù)參數(shù)的部件包括用于將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始的部件;當(dāng)在幀消除后接收的第一非消除幀被分類為開始時(shí),用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件包括用于將用于定標(biāo)合成的聲音信號(hào)的增益限定為給定值的部件。
101.按照權(quán)利要求97的器件,其中所述聲音信號(hào)是語(yǔ)音信號(hào);用于在編碼器中確定隱藏/恢復(fù)參數(shù)的部件包括用于將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始的部件;所述器件包括用于使得用于定標(biāo)在幀消除后接收的第一非消除幀的開始的合成聲音信號(hào)的增益等于在所述被接收的第一非消除幀的結(jié)尾的使用的增益的部件●在從有聲幀到無(wú)聲幀的過(guò)渡期間,在被分類為有聲過(guò)渡的、有聲或開始的在幀消除之前接收的最后非消除幀和被分類為無(wú)聲的幀消除后接收的第一非消除幀的情況下,●在從非有效語(yǔ)音時(shí)段向有效語(yǔ)音階段過(guò)渡期間,當(dāng)在幀消除之前接收的最后非消除幀被編碼為舒適噪音并且在幀消除后接收的第一非消除幀被編碼為有效語(yǔ)音的時(shí)候。
102.一種器件,用于由在信號(hào)編碼參數(shù)的形式下編碼的聲音信號(hào)從編碼器向解碼器的發(fā)送期間被消除的幀引起的幀消除的隱藏,并且用于在已經(jīng)接收到編碼的聲音信號(hào)的非消除幀后促進(jìn)解碼器的恢復(fù),包括用于在解碼器中從信號(hào)編碼參數(shù)確定隱藏/恢復(fù)參數(shù)的部件;用于在解碼器中、響應(yīng)于所確定的隱藏/恢復(fù)參數(shù)進(jìn)行被消除的幀隱藏和解碼器恢復(fù)的部件。
103.按照權(quán)利要求102的器件,包括用于在解碼器中確定從由下述組成的組中選擇的隱藏/恢復(fù)參數(shù)的部件信號(hào)分類參數(shù)、能量信息參數(shù)和相位信息參數(shù)。
104.按照權(quán)利要求102的器件,其中所述聲音信號(hào)是語(yǔ)音信號(hào);在解碼器中確定隱藏/恢復(fù)參數(shù)包括用于將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始的部件。
105.按照權(quán)利要求102的器件,其中用于在解碼器中確定隱藏/恢復(fù)參數(shù)的部件包括用于計(jì)算話音信息參數(shù)的部件。
106.按照權(quán)利要求102的器件,其中用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件包括在接收在幀消除后的非消除的無(wú)聲幀之后,用于產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性部分的部件;在接收在幀消除后的除了無(wú)聲的非消除幀之后,用于通過(guò)重復(fù)前一個(gè)幀的最后音調(diào)周期來(lái)構(gòu)建LP濾波器激勵(lì)信號(hào)的周期性部分的部件。
107.按照權(quán)利要求106的器件,其中用于構(gòu)建激勵(lì)信號(hào)的周期性部分的部件包括用于濾波前一個(gè)幀的被重復(fù)的最后音調(diào)周期的低通濾波器。
108.按照權(quán)利要求107的器件,其中用于在解碼器中確定隱藏/恢復(fù)參數(shù)包括用于計(jì)算話音信息參數(shù)的部件;所述低通濾波器具有截止頻率;用于構(gòu)建LP濾波器激勵(lì)信號(hào)的周期性部分的部件包括用于與話音信息參數(shù)相關(guān)聯(lián)的動(dòng)態(tài)地調(diào)整截止頻率的部件。
109.按照權(quán)利要求102的器件,其中用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件包括用于隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分的部件。
110.按照權(quán)利要求109的器件,其中用于隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分的部件包括用于產(chǎn)生隨機(jī)噪音的部件。
111.按照權(quán)利要求109的器件,其中用于隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分的部件包括用于隨機(jī)地產(chǎn)生革新代碼本的向量指數(shù)的部件。
112.按照權(quán)利要求109的器件,其中所述聲音信號(hào)是語(yǔ)音信號(hào);用于在解碼器中確定隱藏/恢復(fù)參數(shù)的部件包括用于將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始的部件;用于隨機(jī)地產(chǎn)生LP濾波器激勵(lì)信號(hào)的非周期性的、革新部分的部件還包括●如果最后接收的非消除幀與無(wú)聲不同,用于濾波LP濾波器激勵(lì)信號(hào)的革新部分的高通濾波器;●如果最后接收的非消除幀是無(wú)聲的,用于僅僅使用LP濾波器激勵(lì)信號(hào)的革新部分的部件。
113.按照權(quán)利要求109的器件,其中所述聲音信號(hào)是語(yǔ)音信號(hào);用于在解碼器中確定隱藏/恢復(fù)參數(shù)的部件包括用于將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始的部件;用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件包括當(dāng)丟失開始幀——通過(guò)在幀消除后的有聲幀和在幀消除之前的無(wú)聲幀的存在來(lái)指示這一點(diǎn)——時(shí),用于通過(guò)將激勵(lì)信號(hào)的周期性部分構(gòu)建為由音調(diào)周期分離的脈沖的低通濾波的周期性鏈來(lái)人為地重建被丟失的開始的部件。
114.按照權(quán)利要求113的器件,其中用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件還包括用于通過(guò)正常的解碼來(lái)構(gòu)建LP濾波器激勵(lì)信號(hào)的革新部分的部件。
115.按照權(quán)利要114的器件,其中構(gòu)建LP濾波器激勵(lì)信號(hào)的革新部分的部件包括用于隨機(jī)地選擇革新代碼本的輸入項(xiàng)的部件。
116.按照權(quán)利要求113的器件,其中用于人為地重建被丟失的開始的部件包括用于限制人為重建的開始的長(zhǎng)度、以便通過(guò)開始的人為重建來(lái)構(gòu)建至少一整個(gè)音調(diào)周期,所述重建被繼續(xù)直到當(dāng)前子幀的結(jié)尾的部件。
117.按照權(quán)利要求116的器件,其中,進(jìn)行幀消除隱藏和解碼器恢復(fù)還包括在人為重建被丟失的開始之后,用于恢復(fù)規(guī)則的CELP處理的部件,其中所述音調(diào)周期是其中使用人為開始重建的所有子幀的解碼的音調(diào)周期的舍入平均。
118.按照權(quán)利要求103的器件,其中不從編碼器向解碼器發(fā)送能量信息參數(shù);用于進(jìn)行幀消除隱藏和解碼器恢復(fù)的部件包括當(dāng)在幀消除后接收的第一非消除幀的LP濾波器的增益大于在所述幀消除期間消除的最后幀的LP濾波器的增益的時(shí)候,用于使用下面的關(guān)系式來(lái)將在所接收的第一非消除幀期間在解碼器中產(chǎn)生的LP濾波器激勵(lì)信號(hào)的能量調(diào)整為所述被接收的第一非消除幀的LP濾波器的增益的部件Eq=E1ELP0ELP1]]>其中E1是在當(dāng)前幀的結(jié)尾的能量,ELP0是對(duì)于在幀消除之前接收的最后的非消除幀的LP濾波器的脈沖響應(yīng)的能量,ELP1是對(duì)于在幀消除之后的接收的第一非消除幀的LP濾波器的脈沖響應(yīng)的能量。
119.一種用于編碼和解碼聲音信號(hào)的系統(tǒng),包括用于響應(yīng)于聲音信號(hào)而產(chǎn)生一組信號(hào)編碼參數(shù)的聲音信號(hào)編碼器;用于向解碼器發(fā)送信號(hào)編碼參數(shù)的部件;用于響應(yīng)于信號(hào)編碼參數(shù)而合成聲音信號(hào)的所述解碼器;在權(quán)利要求60-101中的任一個(gè)中所述的器件,用于改善由在從編碼器向解碼器的發(fā)送期間被刪除的編碼的聲音信號(hào)的幀引起的幀刪除的隱藏,并且用于促進(jìn)在已經(jīng)接收到所述編碼的聲音信號(hào)的未刪除幀后解碼器的恢復(fù)。
120.一種用于解碼編碼的聲音信號(hào)的解碼器,包括用于響應(yīng)于編碼的聲音信號(hào)而從所述編碼的聲音信號(hào)恢復(fù)一組信號(hào)編碼參數(shù)的部件;用于響應(yīng)于信號(hào)編碼參數(shù)而合成聲音信號(hào)的部件;在權(quán)利要求102-118中的任一個(gè)中所述的器件,用于改善由在從編碼器向解碼器的發(fā)送期間被刪除的編碼的聲音信號(hào)的幀引起的幀刪除的隱藏,并且用于促進(jìn)在已經(jīng)接收到所述編碼的聲音信號(hào)的未刪除幀后解碼器的恢復(fù)。
全文摘要
本發(fā)明涉及一種方法和器件,用于改善由在從編碼器(106)向解碼器(110)的發(fā)送期間被消除的編碼聲音信號(hào)的幀引起的幀消除的隱藏,并且用于促進(jìn)在已經(jīng)接收到所述編碼的聲音信號(hào)的未刪除幀后解碼器的恢復(fù)。為此,在編碼器或解碼器中確定隱藏/恢復(fù)參數(shù)。當(dāng)在編碼器(106)中確定時(shí),隱藏/恢復(fù)參數(shù)被發(fā)送到解碼器(110)。在解碼器中響應(yīng)于所述隱藏/恢復(fù)參數(shù)來(lái)進(jìn)行消除幀隱藏和解碼器恢復(fù)。可以從由下述組成的組中選擇所述隱藏/恢復(fù)參數(shù)信號(hào)分類參數(shù)、能量信息參數(shù)和相位信息參數(shù)。隱藏/恢復(fù)參數(shù)的確定包括將編碼的聲音信號(hào)的連續(xù)幀分類為無(wú)聲、無(wú)聲過(guò)渡、有聲過(guò)渡、有聲或開始,并且根據(jù)下述參數(shù)的至少一部分來(lái)確定這個(gè)分類歸一化的相關(guān)性參數(shù)、譜傾斜參數(shù)、信號(hào)噪聲比參數(shù)、音調(diào)穩(wěn)定性參數(shù)、相對(duì)幀能量參數(shù)和零交叉參數(shù)。
文檔編號(hào)G10L19/12GK1659625SQ03812594
公開日2005年8月24日 申請(qǐng)日期2003年5月30日 優(yōu)先權(quán)日2002年5月31日
發(fā)明者米蘭·吉利尼克, 菲利普·古爾內(nèi)伊 申請(qǐng)人:沃伊斯亞吉公司